Γενικό Σεμινάριο Τμήματος 17η Ομιλία
Ομιλήτρια: Αικατερίνη Καρανικόλα
Τίτλος: Προηγμένες Τεχνικές Μηχανικής Μάθησης για Πρόβλεψη και Ταξινόμηση με Χρήση Συναισθηματικής Ανάλυσης και Ενεργής Μάθησης
Περίληψη:
Η παρούσα ομιλία διερευνά τεχνικές Μηχανικής Μάθησης που αξιοποιούν την Ανάλυση Συναισθήματος και την Ενεργή Μάθηση, με στόχο τη βελτίωση των υφιστάμενων μεθόδων. Η παρουσίαση διαρθρώνεται σε δύο κύριες ενότητες. Στην πρώτη ενότητα, εστιάζουμε στην Ανάλυση Συναισθήματος και την εφαρμογή της σε οικονομικές προβλέψεις. Αρχικά, εξετάζεται η χρήση δεδομένων κοινωνικής δικτύωσης (Twitter) για την πρόβλεψη οικονομικών χρονοσειρών, μέσω δύο πειραματικών διαδικασιών: η πρώτη βασίζεται σε κλασικές μεθόδους Μηχανικής Μάθησης, ενώ η δεύτερη αξιοποιεί τεχνικές Βαθιάς Μάθησης. Σε αμφότερες τις περιπτώσεις, διερευνάται η απόδοση διαφόρων αλγορίθμων καθώς και η επίδραση διαφορετικών εργαλείων συναισθηματικής ανάλυσης (TextBlob, VADER, FinBERT). Τα αποτελέσματα αναδεικνύουν τη θετική επίδραση της Συναισθηματικής Ανάλυσης στην ακρίβεια των οικονομικών προβλέψεων. Επιπλέον, η Ανάλυση Συναισθήματος εξετάζεται ως πρόβλημα ταξινόμησης, όπου συγκρίνονται κλασικοί ταξινομητές με σύγχρονα μοντέλα βασισμένα στο BERT, ενώ αναλύεται η συνεισφορά τεχνικών εξισορρόπησης δεδομένων (SMOTE) και διαφορετικών γλωσσικών αναπαραστάσεων (BoW, TF-IDF). Τα αποτελέσματα υποδεικνύουν την υπεροχή των μοντέλων RoBERTa και τον ρόλο του συνδυασμού SMOTE-TF-IDF στη βελτιστοποίηση της απόδοσης. Η δεύτερη ενότητα επικεντρώνεται στην Ενεργή Μάθηση ως μέσο μείωσης των απαιτήσεων σε επισημασμένα δεδομένα κατά την επίλυση προβλημάτων ταξινόμησης. Παρουσιάζονται δύο διακριτά σενάρια: (α) η εφαρμογή της Ενεργής Μάθησης στην Πρόβλεψη Σφαλμάτων Λογισμικού, τόσο μεμονωμένα όσο και μέσω ομαδοποιητών ταξινομητών, και (β) η αξιοποίηση μοντέλων Transformer, τα οποία ενσωματώνουν τεχνικές Ενεργής Μάθησης, για την Ανάλυση Συναισθήματος. Και στις δύο περιπτώσεις, η στοχευμένη επιλογή των δεδομένων προς επισήμανση οδηγεί σε μοντέλα υψηλής απόδοσης, συγκρίσιμα με εκείνα που προκύπτουν από τη χρήση πολύ μεγαλύτερων συνόλων δεδομένων.
Εκ μέρους της επιτροπής σεμιναρίου,
Δημήτρης