“Μεθοδολογίες Δόμησης και Μηχανικής Μάθησης για την εξόρυξη γνώσης και εφαρμογές σε δεδομένα μεγάλου όγκου”, Αγοράκης Μπομπότας, Υποψήφιος Διδάκτορας, ΤΜΗΥΠ – Τμήμα Μηχανικών Η/Υ και Πληροφορικής
Την ερχόμενη Παρασκευή 25 Ιουλίου, ομιλητής στα πλαίσια των εκδηλώσεων “Σεμινάριο CEID & Social Hour” και των ΔΠΜΣ ΥΔΑ και ΣΜΗΝ θα είναι ο Υποψήφιος Διδάκτορας του Τμήματος κ. Αγοράκης Μπομπότας. Η παρουσίαση αποτελεί μέρος των υποχρεώσεων των ΥΔ του Τμήματος.
Please note the following interesting and highly topical talk that will be presented on Friday 25/7 in the context of the weekly event “CEID Seminar & Social Hour” organized by CEID, and the MS programs DDCDM and SMIN.

Τίτλος: Μεθοδολογίες Δόμησης και Μηχανικής Μάθησης για την εξόρυξη γνώσης και εφαρμογές σε δεδομένα μεγάλου όγκου (Structuring and machine learning methodologies for knowledge mining and applications on big data)
Ομιλητής: Αγοράκης Μπομπότας, Υποψήφιος Διδάκτορας, ΤΜΗΥΠ (Speaker: Mr. Agorakis Bompotas, PhD candidate, CEID).
Περίληψη: Πολλά εκπαιδευτικά ιδρύματα και μεσαίου μεγέθους εταιρείες αντιμετωπίζουν μια κοινή πρόκληση: το κόστος της εξειδικευμένης υπολογιστικής υψηλών επιδόσεων (HPC) είναι συχνά απαγορευτικό, ενώ οι επιτραπέζιοι υπολογιστές που ήδη διαθέτουν παραμένουν συχνά υπο-αξιοποιημένοι. Ενώ υπάρχει αυξανόμενη ανάγκη για υπολογιστική ισχύ για την αξιοποίηση τεχνικών Μηχανικής Μάθησης και τα μεγάλα δεδομένα (big data), πολύτιμοι πόροι παραμένουν συχνά αδρανείς. Το σύστημα CommC αναπτύχθηκε για να αντιμετωπίσει αυτό το ζήτημα, μετατρέποντας το υπάρχον, υπο-αξιοποιημένο υλικό ευρείας κατανάλωσης (commodity hardware) σε μια οικονομικά αποδοτική, ισχυρή και βιώσιμη ιδιωτική υπολογιστική συστοιχία (cluster). Το σύστημα βασίζεται σε μια υβριδική αρχιτεκτονική που συνδυάζει πολλαπλές τεχνολογίες ανοιχτού κώδικα στην ίδια φυσική υποδομή. Χρησιμοποιεί τον hypervisor Proxmox για την παροχή απομονωμένων εικονικών μηχανών, Kubernetes για την ενορχήστρωση κοντεϊνεροποιημένων (containerized) εφαρμογών όπως το Apache Spark και Linux Containers για μη παραλληλοποιήσιμες εργασίες κρίσιμες ως προς την απόδοση. Μια κεντρική συνεισφορά του έργου CommC είναι η αποδοτικότητα κόστους, η οποία προσφέρει ένα οικονομικό μοντέλο διαφορετικό σε σύγκριση με την εξάρτηση από δημόσιες υπηρεσίες νέφους (cloud). Η ανάλυσή μας υποδεικνύει ότι αυτό το μοντέλο μπορεί να οδηγήσει σε εξοικονόμηση κόστους από 6 έως 8 φορές σε σύγκριση με την εκτέλεση αντίστοιχων φόρτων εργασίας σε μεγάλους παρόχους cloud όπως το AWS, το Google Cloud ή το Microsoft Azure. Η αξία της συστοιχίας CommC ελέγχθηκε μέσω της εφαρμογής της σε διάφορα πραγματικά σενάρια επιστημονικής έρευνας και επεξεργασίας δεδομένων. Η ευελιξία της πλατφόρμας φαίνεται από την ικανότητά της να φιλοξενεί εφαρμογές βιοπληροφορικής όπως το DiscMycoVir για την ανακάλυψη μυκοϊών και να λειτουργεί ως περιβάλλον για την ανάπτυξη νέων μοντέλων μηχανικής μάθησης όπως το SparkBN, έναν κλιμακούμενο ταξινομητή Μπεϋζιανών Δικτύων (Bayesian Network). Για να διευκολύνουμε αυτά και άλλα εν εξελίξει ερευνητικά έργα, αναπτύξαμε μια σειρά υποστηρικτικών εργαλείων — συμπεριλαμβανομένων του CommC Provisioner για έξυπνο χρονοπρογραμματισμό πόρων, του SparkQueue για απλοποιημένη υποβολή εργασιών και του SparkReact για διαδραστική δημιουργία μοντέλων. Ταυτόχρονα, το CommC εκπληρώνει τον βασικό ρόλο της παροχής εικονικών σταθμών εργασίας κατ’ απαίτηση για φοιτητές και ερευνητές.
Συνοπτικά, η παρούσα εργασία τεκμηριώνει την εμπειρία μας στη δημιουργία μιας οικονομικά αποδοτικής και ευέλικτης υπολογιστικής συστοιχίας από υλικό ευρείας κατανάλωσης. Το έργο CommC λειτουργεί ως ένα πρακτικό παράδειγμα του πώς οι υπάρχοντες πόροι μπορούν να επαναχρησιμοποιηθούν για τη δημιουργία οικονομικά προσιτών και βιώσιμων υπολογιστικών περιβαλλόντων.
Σχετικά με τoν ομιλητή: Ο κ. Αγοράκης Μπoμπότας είναι υποψήφιος διδάκτορας του Τμήματος Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής του Πανεπιστημίου Πατρών, υπό την επίβλεψη του Αναπληρωτή καθηγητή Χρήστου Μακρή, και συνεργαζόμενος ερευνητής στο Ινστιτούτο Βιομηχανικών Συστημάτων. Αντλώντας από την εμπειρία του ως μηχανικός λογισμικού, η έρευνά του εστιάζει στο να καταστήσει την υπολογιστική υψηλών επιδόσεων προσιτή και οικονομικά αποδοτική. Ειδικεύεται στον σχεδιασμό και την ανάπτυξη κλιμακούμενων συστημάτων, χρησιμοποιώντας τεχνολογίες όπως τα Docker, Kubernetes και Apache Spark. Το έργο του, συχνά στο πλαίσιο ευρωπαϊκών ερευνητικών προγραμμάτων, βρίσκει άμεση εφαρμογή στην επεξεργασία Μεγάλων Δεδομένων (Big Data) και στην ανάπτυξη καινοτόμων μοντέλων Μηχανικής Μάθησης.