Το Πανεπιστήμιο Harvard, αναγνωρίζοντας τη μεταβαλλόμενη δυναμική στον τομέα της τεχνητής νοημοσύνης, ανακοίνωσε την Πέμπτη μια πρωτοποριακή πρωτοβουλία. Μέσω του νεοσύστατου Institutional Data Initiative, το πανεπιστήμιο διαθέτει ένα εκατομμύριο βιβλία για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης, με την υποστήριξη κολοσσών όπως η Microsoft και η OpenAI.
Η συλλογή, που προέρχεται από ψηφιοποιήσεις του Google Books, περιλαμβάνει έργα των οποίων τα πνευματικά δικαιώματα έχουν λήξει. Το περιεχόμενο καλύπτει ένα εντυπωσιακό εύρος, από κλασικά αριστουργήματα των Shakespeare, Dickens και Dante μέχρι εξειδικευμένα τσεχικά εγχειρίδια μαθηματικών και ουαλικά λεξικά τσέπης.
Η πρωτοβουλία έρχεται σε μια κρίσιμη στιγμή για τον κλάδο της τεχνητής νοημοσύνης. Τα θεμελιώδη γλωσσικά μοντέλα, όπως το ChatGPT, απαιτούν τεράστιους όγκους ποιοτικού κειμένου για την εκπαίδευσή τους. Όσο περισσότερες πληροφορίες επεξεργάζονται, τόσο καλύτερα αποδίδουν στη μίμηση ανθρώπινης συμπεριφοράς και στην παροχή γνώσεων.
Ωστόσο, η αυξανόμενη ανάγκη για δεδομένα έχει οδηγήσει σε νομικές διαμάχες. Μεγάλοι εκδοτικοί οίκοι, συμπεριλαμβανομένων των Wall Street Journal και New York Times, έχουν προσφύγει στη δικαιοσύνη κατά της OpenAI και της Perplexity για μη εξουσιοδοτημένη χρήση του περιεχομένου τους.
Οι υπερασπιστές των εταιρειών τεχνητής νοημοσύνης προβάλλουν το επιχείρημα ότι η διαδικασία μάθησης των ΑΙ μοντέλων προσομοιάζει την ανθρώπινη εκπαίδευση. Όπως οι άνθρωποι μελετούν, διαβάζουν και συνθέτουν νέο περιεχόμενο, έτσι και τα ΑΙ μοντέλα επεξεργάζονται και αξιοποιούν υπάρχουσες πηγές.
Παράλληλα, παρατηρείται μια αυξανόμενη τάση προστασίας των δεδομένων από πλατφόρμες κοινωνικής δικτύωσης. Το Reddit έχει συνάψει συμφωνίες εκατομμυρίων με τη Google, ενώ το X διατηρεί αποκλειστική συνεργασία με την xAI του Elon Musk για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης.
Ειδικοί του κλάδου επισημαίνουν ότι παρά τον εντυπωσιακό αριθμό, το ένα εκατομμύριο βιβλία δεν επαρκεί για τις σύγχρονες ανάγκες εκπαίδευσης ΑΙ. Τα παλαιότερα κείμενα στερούνται σύγχρονης ορολογίας και εκφράσεων, ιδιαίτερα της γλώσσας που χρησιμοποιεί η Γενιά Ζ.
Η αγορά αδειών χρήσης σύγχρονου περιεχομένου αναμένεται να αποτελέσει μια ραγδαία αναπτυσσόμενη βιομηχανία. Αναλυτές προβλέπουν ότι μέχρι το 2026, η αξία της αγοράς δεδομένων για εκπαίδευση ΑΙ θα ξεπεράσει τα 10 δισεκατομμύρια δολάρια ετησίως.
Οι εταιρείες τεχνητής νοημοσύνης αναζητούν συνεχώς τρόπους διαφοροποίησης των μοντέλων τους μέσω αποκλειστικών πηγών δεδομένων. Η πρωτοβουλία του Harvard προσφέρει μια νόμιμη βάση εκκίνησης, αλλά η μάχη για πρόσβαση σε σύγχρονο περιεχόμενο μόλις αρχίζει.
Η πρωτοβουλία του Harvard έχει ήδη προσελκύσει το ενδιαφέρον άλλων ακαδημαϊκών ιδρυμάτων, με το MIT και το Stanford να εξετάζουν παρόμοιες δράσεις για το 2025.
Πηγή: https://www.insomnia.gr/
(Κώστας Παπαζαχαρίου, αναδημοσίευση 18/12/2024)
Join the Conversation →