Η τεχνητή νοημοσύνη για να αναπτυχθεί θέλει δεδομένα. Αυτό πια είναι γνωστό ακόμα και σε όσους δεν έχουν συνειδητοποιήσει ακριβώς τι είναι η τεχνητή νοημοσύνη και με ποιον τρόπο πρόκειται να αλλάξει τις ζωές μας τα χρόνια που έρχονται. Αυτό που δεν είναι τόσο γνωστό είναι με ποιον τρόπο οι εταιρείες-γίγαντες, που αναπτύσσουν τέτοια λογισμικά τεχνητής νοημοσύνης, προσπαθούν να βάλουν χέρι στα στοιχεία αυτά. Και πού είναι διατεθειμένες να φτάσουν για να το πετύχουν.

Μόλις πριν λίγο καιρό έγινε γνωστό ότι η ομάδα της OpenAI μετέγραψε περισσότερες από ένα εκατομμύριο ώρες βίντεο στο YouTube. Στην ομάδα αυτή επικεφαλής ήταν ο ίδιος ο Γκρεγκ Μπρόκμαν, πρόεδρος της OpenAI, ο οποίος βοήθησε προσωπικά στη συλλογή των βίντεο. Τα βίντεο αυτά στη συνέχεια ενσωματώθηκαν στο GPT-4, το οποίο θεωρείται σήμερα ένα από τα πιο ισχυρά εργαλεία για την τεχνητή νοημοσύνη παγκοσμίως και ήταν η βάση της τελευταίας έκδοσης του ChatGPT chatbot.

Το πράγμα είναι απλό: Οι εταιρείες πια κυνηγούν ανηλεώς τα ψηφιακά δεδομένα. Για να τα αποκτήσουν, οι κολοσσοί όπως η OpenAI, η Google και η Meta είναι διατεθειμένες να λειάνουν νομικές γωνίες, να αγνοήσουν εταιρικές πολιτικές, ως και να μπουν σε συζητήσεις για να παρακάμψουν ορισμένους νόμους που αφορούν την ιδιωτικότητα, το απόρρητο και την πνευματική ιδιοκτησία.

Στη Meta, η οποία κατέχει το Facebook και το Instagram, διευθυντές, δικηγόροι και μηχανικοί συζήτησαν το 2023 μέχρι και την αγορά του εκδοτικού οίκου Simon & Schuster για να προμηθευτούν μεγάλα έργα που έχουν εκδοθεί απ’ αυτούς. Συζήτησαν, επίσης, τη συλλογή δεδομένων που προστατεύονται από πνευματικά δικαιώματα από όλο το Διαδίκτυο, ακόμα κι αν αυτό σήμαινε να αντιμετωπίσουν αγωγές. Ούτως ή άλλως τα νομικά ζητήματα αναμένεται να κρατήσουν χρόνια, ενώ η τεχνητή νοημοσύνη προχωράει με ασύλληπτα γοργά βήματα.

Το 2023, επίσης, η Google διεύρυνε επίσης τους όρους παροχής υπηρεσιών της. Το σημαντικότερο κίνητρο γι’ αυτή την αλλαγή ήταν η απόκτηση δωρεάν περιεχομένου, όπως η χρησιμοποίηση δημοσίων διαθέσιμων εγγράφων που αποθηκεύονται στη Google, αλλά και κριτικές εστιατορίων στο Google Maps!

Το υλικό που δημοσιεύεται στο διαδίκτυο, ειδήσεις, έργα , αναρτήσεις πινάκων μηνυμάτων, άρθρα Wikipedia, προγράμματα υπολογιστών, φωτογραφίες, podcast και κλιπ ταινιών γίνεται το εργαλείο εκπαίδευσης για την τεχνητή νοημοσύνη. Η δημιουργία καινοτόμων συστημάτων εξαρτάται από την ύπαρξη επαρκών δεδομένων για να διδάξουν τις τεχνολογίες να παράγουν αμέσως κείμενο, εικόνες, ήχους και βίντεο που μοιάζουν με αυτό που δημιουργεί ένας άνθρωπος.

Τρισεκατομμύρια λέξεις για να εκπαιδευτεί η τεχνητή νοημοσύνη

Ο όγκος των δεδομένων, όπως καταλαβαίνει ο καθένας, είναι κρίσιμος. Τα κορυφαία συστήματα chatbot έχουν μάθει από δεξαμενές ψηφιακού κειμένου που εκτείνονται ως και 3 τρισεκατομμύρια λέξεις. Αυτός ο όγκος είναι περίπου διπλάσιο από τον αριθμό των λέξεων που είναι αποθηκευμένες στη Βιβλιοθήκη Μπόντλεϊ του Πανεπιστημίου της Οξφόρδης, η οποία συλλέγει χειρόγραφα από το 1602!

Για πολλά χρόνια το διαδίκτυο,  με ιστότοπους όπως η Wikipedia και το Reddit, αποτελούσε μια φαινομενικά ατελείωτη πηγή δεδομένων. Αλλά οι εταιρείες πια αναζητούν ακόμα περισσότερα. Η Google και η Meta, που έχουν δισεκατομμύρια χρήστες που παράγουν ερωτήματα αναζήτησης και αναρτήσεις στα μέσα κοινωνικής δικτύωσης κάθε μέρα, περιορίστηκαν σε μεγάλο βαθμό από τους νόμους περί απορρήτου και τις δικές τους πολιτικές από το να αντλούν μεγάλο μέρος αυτού του περιεχομένου για την τεχνητή νοημοσύνη.

Οι εταιρείες τεχνολογίας είναι τόσο διψασμένοι για νέα δεδομένα που ορισμένες αναπτύσσουν τις λεγόμενες «συνθετικές» πληροφορίες. Δεν πρόκειται για οργανικά δεδομένα που δημιουργούνται από ανθρώπους, αλλά για κείμενο, εικόνες και κώδικα που παράγει η ίδια η τεχνητή νοημοσύνη, τουλάχιστον στην τελική τους μορφή.

Για τους online δημιουργούς, βέβαια, η αυξανόμενη χρήση των έργων τους από την τεχνητή νοημοσύνη έχουν προκαλέσει αγωγές για πνευματικά δικαιώματα και αδειοδότηση. Οι Times μήνυσαν την OpenAI και τη Microsoft το 2023 για χρήση ειδήσεων που προστατεύονται από πνευματικά δικαιώματα χωρίς άδεια. Η OpenAI και η Microsoft είπαν ότι η χρήση των άρθρων ήταν «δίκαιη χρήση» ή επιτρέπεται βάσει της νομοθεσίας περί πνευματικών δικαιωμάτων, επειδή μεταμόρφωσαν τα έργα για διαφορετικό σκοπό.

Περισσότερες από 10.000 εμπορικές ομάδες, συγγραφείς, εταιρείες και άλλοι υπέβαλαν μηνύσεις τα τελευταία χρόνια έτος σχετικά με τη χρήση δημιουργικών έργων τους από την τεχνητή νοημοσύνη. Αυτές οι μηνύσεις υποβλήθηκαν μόνο στις ΗΠΑ, στο Γραφείο Πνευματικών Δικαιωμάτων, μια ομοσπονδιακή υπηρεσία που ετοιμάζει οδηγίες σχετικά με τον τρόπο εφαρμογής της νομοθεσίας περί πνευματικών δικαιωμάτων.

Οι ερευνητές έχουν από καιρό χρησιμοποιήσει μεγάλες δημόσιες βάσεις δεδομένων ψηφιακών πληροφοριών για την ανάπτυξη τεχνητής νοημοσύνηςI., συμπεριλαμβανομένων των Wikipedia και Common Crawl, μιας βάσης δεδομένων με περισσότερες από 250 δισεκατομμύρια ιστοσελίδες που συλλέγονται από το 2007. Το μόνο φίλτρο που υπήρχε ήταν να αποβάλλονται όσα κείμενα περιείχαν ρητορική μίσους.

Πριν από το 2020, τα περισσότερα μοντέλα για την τεχνητή νοημοσύνη χρησιμοποιούσαν σχετικά λίγα δεδομένα εκπαίδευσης. Όταν, όμως, το OpenAI αποκάλυψε το GPT-3 τον Νοέμβριο του 2020, εκπαιδεύτηκε με τον μεγαλύτερο όγκο δεδομένων μέχρι σήμερα, περίπου 300 δισεκατομμύρια λέξεις. Το 2022, ο DeepMind, ένα εργαστήριο για την τεχνητή νοημοσύνη που ανήκει στην Google, προχώρησε περισσότερο. Δοκίμασε 400 διαφορετικά μοντέλα τεχνητής νοημοσύνης και διαφοροποιούσε τον όγκο των δεδομένων εκπαίδευσης και άλλους παράγοντες. Τα μοντέλα με τις κορυφαίες επιδόσεις χρησιμοποίησαν ακόμη περισσότερα δεδομένα. Ένα συγκεκριμένο μοντέλο, το Chinchilla, εκπαιδεύτηκε σε 1,4 τρισεκατομμύρια λέξεις.

Το 2023 ερευνητές από την Κίνα κυκλοφόρησαν το μοντέλο Skywork, το οποίο εκπαιδεύτηκε σε 3,2 τρισεκατομμύρια λέξεις από αγγλικά και κινέζικα κείμενα. Η Google αποκάλυψε επίσης ένα δικό της σύστημα για την τεχνητή νοημοσύνη, το PaLM 2, ξεπέρασε τα 3,6 τρισεκατομμύρια μάρκες. Όπως πάει το πράγμα, σύντομα και αυτοί οι αριθμοί θα φαντάζουν μικροί μπροστά στον όγκο δεδομένων που διατίθεται.

Το OpenAI έφτιαξε πριν λίγο καιρό το Whisper, το εργαλείο αναγνώρισης ομιλίας, για τη μεταγραφή βίντεο και podcast του YouTube. Ωστόσο, το YouTube απαγορεύει στους χρήστες όχι μόνο να χρησιμοποιούν τα βίντεό του για «ανεξάρτητες» εφαρμογές, αλλά και να έχουν πρόσβαση στα βίντεό του με οποιοδήποτε αυτοματοποιημένο μέσο. Αυτό αναφέρεται στους κανόνες λειτουργίας του. Παρ’ όλα αυτά, η κίνηση έγινε.

Στα τέλη του 2022, αφότου το OpenAI κυκλοφόρησε το ChatGPT και ξεκίνησε έναν αγώνα δρόμου για να καλύψουν τη διαφορά, ερευνητές και μηχανικοί της Google συζήτησαν την αξιοποίηση άλλων δεδομένων χρηστών. Δισεκατομμύρια λέξεις βρίσκονται στα Google Docs και σε άλλες δωρεάν εφαρμογές Google. Οι περιορισμοί απορρήτου της εταιρείας περιόρισαν τον τρόπο με τον οποίο θα μπορούσαν να χρησιμοποιήσουν τα δεδομένα.

Ο αγώνας ταχύτητας για την εξασφάλιση όσο το δυνατόν περισσότερων δεδομένων δεν έχει τέλος. Από τη στιγμή που ξεκίνησε, δεν φαίνεται να έχει και εμπόδια. Το ζήτημα είναι ως πού είναι διατεθειμένες να φτάσουν οι εταιρείες και ποιους κανόνες-νόμους θα καταστρατηγήσουν εν γνώσει τους. Και ποιοι θα τους αφήσουν να το κάνουν.

** Με πληροφορίες από New York Times.