Η ελληνική γλώσσα διαθέτει σήμερα επτά εκατομμύρια μοναδικές λέξεις

Η ελληνική γλώσσα διαθέτει σήμερα επτά εκατομμύρια μοναδικές λέξεις

 

Η ελληνική γλώσσα διαθέτει σήμερα περίπου επτά εκατομμύρια μοναδικές λέξεις!

 

Πρόκειται για αποτέλεσμα «εξόρυξης», όχι βεβαίως με σκαπάνη ή εκρηκτικά, αλλά με τις εκρηκτικές τεχνολογικές εφαρμογές της τεχνητής νοημοσύνης και της εξόρυξης δεδομένων (data mining).

 

Για να βρεθεί ο συγκεκριμένος αριθμός λέξεων χρησιμοποιήθηκαν καινοτόμες μέθοδοι τεχνητής νοημοσύνης, όπως για παράδειγμα βαθιά νευρωνικά δίκτυα (υπολογιστικά δίκτυα που μιμούνται τους βιολογικούς νευρώνες) πάνω σε κείμενα από 170 εκατ. ιστοσελίδες.

Ο αριθμός των επτά εκατ. δεν αφορά ρίζες, αλλά διαφορετικές λέξεις (π.χ. «άνθρωπος» και «άνθρωποι» είναι δύο διαφορετικές λέξεις).

Δράστης αυτής της γλωσσικής ψηφιακής ανασκαφής είναι η ερευνητική ομάδα «Εξόρυξης Δεδομένων» του Τμήματος Πληροφορικής του Οικονομικού Πανεπιστημίου Αθηνών (ΟΠΑ), στο πλαίσιο έργου το οποίο υλοποιήθηκε για λογαριασμό της Εθνικής Βιβλιοθήκης με χρηματοδότηση του Ιδρύματος Νιάρχου.

«Συμβάλλαμε στην παραγωγή καινοτομικών ψηφιακών γλωσσολογικών πόρων για την ελληνική γλώσσα, όπως το λεξικό που, από όσο γνωρίζουμε, είναι το μεγαλύτερο σε ψηφιακή μορφή.

Ταυτόχρονα, καθώς στηρίζεται στο σύνολο του πρόσφατου περιεχομένου του Διαδικτύου, αποδίδει ουσιαστικά την τρέχουσα μορφή της γλώσσας.

Για παράδειγμα, υπάρχουν καινοφανείς λέξεις όπως “θερμογαλβανισμένη” ή “ενταλματοποιηθέντα”, οι οποίες πιθανότατα δεν υπάρχουν στα παραδοσιακά λεξικά αλλά παράγονται από την πρόσφατη εξέλιξη της γλώσσας»,

 

λέει στην «Κ» ο καθηγητής Μιχάλης Βαζιργιάννης, ο οποίος διευθύνει την ερευνητική ομάδα. Στο έργο συνεισέφεραν οι συνεργάτες της ομάδας Π. Μελαδιανός και Σ. Ούτσιος.

Ο κ. Βαζιργιάννης βρίσκεται από το 2013 με σχέση παράλληλης απασχόλησης στη Γαλλία, έχει θέση διακεκριμένου καθηγητή στο Πολυτεχνείο του Παρισιού (Ecole Polytechnique), όπου διευθύνει την ομάδα Επιστήμης Δεδομένων (Data Science and Mining).

  Μιμόζα η ντροπαλή -Το περίεργο φυτό που δεν θέλει να το αγγίζουν

 

καθηγητής Μιχάλης Βαζιργιάννης

 

Ο καθηγητής Μιχάλης Βαζιργιάννης  διευθύνει την ερευνητική ομάδα «Εξόρυξης Δεδομένων» του Τμήματος Πληροφορικής του ΟΠΑ.

 

ΠΗΓΗ

Αφήστε μια απάντηση