Πόλεμος για την τεχνητή νοημοσύνη: Εταιρείες κολοσσοί ρουφάνε δεδομένα με όχι τόσο νόμιμο τρόπο

Οι εταιρείες στην Τεχνητή Νοημοσύνη κυνηγούν ανηλεώς τα data μας. Για να τα αποκτήσουν, είναι διατεθειμένες να παρακάμψουν το νόμο.

Το url αντιγράφηκε.

Η τεχνητή νοημοσύνη για να αναπτυχθεί θέλει δεδομένα. Αυτό πια είναι γνωστό ακόμα και σε όσους δεν έχουν συνειδητοποιήσει ακριβώς τι είναι η τεχνητή νοημοσύνη και με ποιον τρόπο πρόκειται να αλλάξει τις ζωές μας τα χρόνια που έρχονται. Αυτό που δεν είναι τόσο γνωστό είναι με ποιον τρόπο οι εταιρείες-γίγαντες, που αναπτύσσουν τέτοια λογισμικά τεχνητής νοημοσύνης, προσπαθούν να βάλουν χέρι στα στοιχεία αυτά. Και πού είναι διατεθειμένες να φτάσουν για να το πετύχουν.

Μόλις πριν λίγο καιρό έγινε γνωστό ότι η ομάδα της OpenAI μετέγραψε περισσότερες από ένα εκατομμύριο ώρες βίντεο στο YouTube. Στην ομάδα αυτή επικεφαλής ήταν ο ίδιος ο Γκρεγκ Μπρόκμαν, πρόεδρος της OpenAI, ο οποίος βοήθησε προσωπικά στη συλλογή των βίντεο. Τα βίντεο αυτά στη συνέχεια ενσωματώθηκαν στο GPT-4, το οποίο θεωρείται σήμερα ένα από τα πιο ισχυρά εργαλεία για την τεχνητή νοημοσύνη παγκοσμίως και ήταν η βάση της τελευταίας έκδοσης του ChatGPT chatbot.

Το πράγμα είναι απλό: Οι εταιρείες πια κυνηγούν ανηλεώς τα ψηφιακά δεδομένα. Για να τα αποκτήσουν, οι κολοσσοί όπως η OpenAI, η Google και η Meta είναι διατεθειμένες να λειάνουν νομικές γωνίες, να αγνοήσουν εταιρικές πολιτικές, ως και να μπουν σε συζητήσεις για να παρακάμψουν ορισμένους νόμους που αφορούν την ιδιωτικότητα, το απόρρητο και την πνευματική ιδιοκτησία.

Στη Meta, η οποία κατέχει το Facebook και το Instagram, διευθυντές, δικηγόροι και μηχανικοί συζήτησαν το 2023 μέχρι και την αγορά του εκδοτικού οίκου Simon & Schuster για να προμηθευτούν μεγάλα έργα που έχουν εκδοθεί απ’ αυτούς. Συζήτησαν, επίσης, τη συλλογή δεδομένων που προστατεύονται από πνευματικά δικαιώματα από όλο το Διαδίκτυο, ακόμα κι αν αυτό σήμαινε να αντιμετωπίσουν αγωγές. Ούτως ή άλλως τα νομικά ζητήματα αναμένεται να κρατήσουν χρόνια, ενώ η τεχνητή νοημοσύνη προχωράει με ασύλληπτα γοργά βήματα.

Το 2023, επίσης, η Google διεύρυνε επίσης τους όρους παροχής υπηρεσιών της. Το σημαντικότερο κίνητρο γι’ αυτή την αλλαγή ήταν η απόκτηση δωρεάν περιεχομένου, όπως η χρησιμοποίηση δημοσίων διαθέσιμων εγγράφων που αποθηκεύονται στη Google, αλλά και κριτικές εστιατορίων στο Google Maps!

Το υλικό που δημοσιεύεται στο διαδίκτυο, ειδήσεις, έργα , αναρτήσεις πινάκων μηνυμάτων, άρθρα Wikipedia, προγράμματα υπολογιστών, φωτογραφίες, podcast και κλιπ ταινιών γίνεται το εργαλείο εκπαίδευσης για την τεχνητή νοημοσύνη. Η δημιουργία καινοτόμων συστημάτων εξαρτάται από την ύπαρξη επαρκών δεδομένων για να διδάξουν τις τεχνολογίες να παράγουν αμέσως κείμενο, εικόνες, ήχους και βίντεο που μοιάζουν με αυτό που δημιουργεί ένας άνθρωπος.

Τρισεκατομμύρια λέξεις για να εκπαιδευτεί η τεχνητή νοημοσύνη

Ο όγκος των δεδομένων, όπως καταλαβαίνει ο καθένας, είναι κρίσιμος. Τα κορυφαία συστήματα chatbot έχουν μάθει από δεξαμενές ψηφιακού κειμένου που εκτείνονται ως και 3 τρισεκατομμύρια λέξεις. Αυτός ο όγκος είναι περίπου διπλάσιο από τον αριθμό των λέξεων που είναι αποθηκευμένες στη Βιβλιοθήκη Μπόντλεϊ του Πανεπιστημίου της Οξφόρδης, η οποία συλλέγει χειρόγραφα από το 1602!

Για πολλά χρόνια το διαδίκτυο, με ιστότοπους όπως η Wikipedia και το Reddit, αποτελούσε μια φαινομενικά ατελείωτη πηγή δεδομένων. Αλλά οι εταιρείες πια αναζητούν ακόμα περισσότερα. Η Google και η Meta, που έχουν δισεκατομμύρια χρήστες που παράγουν ερωτήματα αναζήτησης και αναρτήσεις στα μέσα κοινωνικής δικτύωσης κάθε μέρα, περιορίστηκαν σε μεγάλο βαθμό από τους νόμους περί απορρήτου και τις δικές τους πολιτικές από το να αντλούν μεγάλο μέρος αυτού του περιεχομένου για την τεχνητή νοημοσύνη.

Οι εταιρείες τεχνολογίας είναι τόσο διψασμένοι για νέα δεδομένα που ορισμένες αναπτύσσουν τις λεγόμενες «συνθετικές» πληροφορίες. Δεν πρόκειται για οργανικά δεδομένα που δημιουργούνται από ανθρώπους, αλλά για κείμενο, εικόνες και κώδικα που παράγει η ίδια η τεχνητή νοημοσύνη, τουλάχιστον στην τελική τους μορφή.

Για τους online δημιουργούς, βέβαια, η αυξανόμενη χρήση των έργων τους από την τεχνητή νοημοσύνη έχουν προκαλέσει αγωγές για πνευματικά δικαιώματα και αδειοδότηση. Οι Times μήνυσαν την OpenAI και τη Microsoft το 2023 για χρήση ειδήσεων που προστατεύονται από πνευματικά δικαιώματα χωρίς άδεια. Η OpenAI και η Microsoft είπαν ότι η χρήση των άρθρων ήταν «δίκαιη χρήση» ή επιτρέπεται βάσει της νομοθεσίας περί πνευματικών δικαιωμάτων, επειδή μεταμόρφωσαν τα έργα για διαφορετικό σκοπό.

Περισσότερες από 10.000 εμπορικές ομάδες, συγγραφείς, εταιρείες και άλλοι υπέβαλαν μηνύσεις τα τελευταία χρόνια έτος σχετικά με τη χρήση δημιουργικών έργων τους από την τεχνητή νοημοσύνη. Αυτές οι μηνύσεις υποβλήθηκαν μόνο στις ΗΠΑ, στο Γραφείο Πνευματικών Δικαιωμάτων, μια ομοσπονδιακή υπηρεσία που ετοιμάζει οδηγίες σχετικά με τον τρόπο εφαρμογής της νομοθεσίας περί πνευματικών δικαιωμάτων.

Οι ερευνητές έχουν από καιρό χρησιμοποιήσει μεγάλες δημόσιες βάσεις δεδομένων ψηφιακών πληροφοριών για την ανάπτυξη τεχνητής νοημοσύνηςI., συμπεριλαμβανομένων των Wikipedia και Common Crawl, μιας βάσης δεδομένων με περισσότερες από 250 δισεκατομμύρια ιστοσελίδες που συλλέγονται από το 2007. Το μόνο φίλτρο που υπήρχε ήταν να αποβάλλονται όσα κείμενα περιείχαν ρητορική μίσους.

Πριν από το 2020, τα περισσότερα μοντέλα για την τεχνητή νοημοσύνη χρησιμοποιούσαν σχετικά λίγα δεδομένα εκπαίδευσης. Όταν, όμως, το OpenAI αποκάλυψε το GPT-3 τον Νοέμβριο του 2020, εκπαιδεύτηκε με τον μεγαλύτερο όγκο δεδομένων μέχρι σήμερα, περίπου 300 δισεκατομμύρια λέξεις. Το 2022, ο DeepMind, ένα εργαστήριο για την τεχνητή νοημοσύνη που ανήκει στην Google, προχώρησε περισσότερο. Δοκίμασε 400 διαφορετικά μοντέλα τεχνητής νοημοσύνης και διαφοροποιούσε τον όγκο των δεδομένων εκπαίδευσης και άλλους παράγοντες. Τα μοντέλα με τις κορυφαίες επιδόσεις χρησιμοποίησαν ακόμη περισσότερα δεδομένα. Ένα συγκεκριμένο μοντέλο, το Chinchilla, εκπαιδεύτηκε σε 1,4 τρισεκατομμύρια λέξεις.

Το 2023 ερευνητές από την Κίνα κυκλοφόρησαν το μοντέλο Skywork, το οποίο εκπαιδεύτηκε σε 3,2 τρισεκατομμύρια λέξεις από αγγλικά και κινέζικα κείμενα. Η Google αποκάλυψε επίσης ένα δικό της σύστημα για την τεχνητή νοημοσύνη, το PaLM 2, ξεπέρασε τα 3,6 τρισεκατομμύρια μάρκες. Όπως πάει το πράγμα, σύντομα και αυτοί οι αριθμοί θα φαντάζουν μικροί μπροστά στον όγκο δεδομένων που διατίθεται.

Το OpenAI έφτιαξε πριν λίγο καιρό το Whisper, το εργαλείο αναγνώρισης ομιλίας, για τη μεταγραφή βίντεο και podcast του YouTube. Ωστόσο, το YouTube απαγορεύει στους χρήστες όχι μόνο να χρησιμοποιούν τα βίντεό του για «ανεξάρτητες» εφαρμογές, αλλά και να έχουν πρόσβαση στα βίντεό του με οποιοδήποτε αυτοματοποιημένο μέσο. Αυτό αναφέρεται στους κανόνες λειτουργίας του. Παρ’ όλα αυτά, η κίνηση έγινε.

Στα τέλη του 2022, αφότου το OpenAI κυκλοφόρησε το ChatGPT και ξεκίνησε έναν αγώνα δρόμου για να καλύψουν τη διαφορά, ερευνητές και μηχανικοί της Google συζήτησαν την αξιοποίηση άλλων δεδομένων χρηστών. Δισεκατομμύρια λέξεις βρίσκονται στα Google Docs και σε άλλες δωρεάν εφαρμογές Google. Οι περιορισμοί απορρήτου της εταιρείας περιόρισαν τον τρόπο με τον οποίο θα μπορούσαν να χρησιμοποιήσουν τα δεδομένα.

Ο αγώνας ταχύτητας για την εξασφάλιση όσο το δυνατόν περισσότερων δεδομένων δεν έχει τέλος. Από τη στιγμή που ξεκίνησε, δεν φαίνεται να έχει και εμπόδια. Το ζήτημα είναι ως πού είναι διατεθειμένες να φτάσουν οι εταιρείες και ποιους κανόνες-νόμους θα καταστρατηγήσουν εν γνώσει τους. Και ποιοι θα τους αφήσουν να το κάνουν.

** Με πληροφορίες από New York Times.

Ακολουθήστε το στο Google News

#ChatGPT #Google #Meta #OpenAI

Πόλεμος για την τεχνητή νοημοσύνη: Εταιρείες κολοσσοί ρουφάνε δεδομένα με όχι τόσο νόμιμο τρόπο

Τρισεκατομμύρια λέξεις για να εκπαιδευτεί η τεχνητή νοημοσύνη

Διαβάστε ακόμα

DeepSeek: Πώς άλλαξε τους συσχετισμούς στην Τεχνητή Νοημοσύνη

Ναι, έχασε πολλά η τέχνη που έκανα τη μούρη μου Ghibli style

5 φανταστικές ταινίες του Studio Ghibli που μπορείς να δεις σήμερα στο Netflix

Galaxy S25: Η Samsung έφερε το μέλλον και κάνει την Τεχνητή Νοημοσύνη σύμμαχό σου

Ούτε Μύκονος, ούτε Σαντορίνη, ούτε Πάρος: Τα 2 νησιά που αναζητήθηκαν περισσότερο στη Google δεν τα βρίσκεις ούτε μέχρι αύριο

Το τσιπάκι της Google που θα «καταπιεί» τον υπεράνθρωπο: Κάνει σε 5 λεπτά εργασίες που ένας υπολογιστής θέλει δισεκατομμύρια χρόνια!

Τις 3 δεν τις ξέρει άνθρωπος στη Δύση: Οι ξένες σειρές που είχαν τις περισσότερες αναζητήσεις το 2024 – Δε γίνεται να λείπει αυτή!

Η Νο1 ταινία για το 2024 με βάση τις αναζητήσεις στη Google: Έχει τα περισσότερα έσοδα την τελευταία 2ετία

Το ανεξήγητο με σειρά της περασμένης σεζόν: Μέτρια προς χαμηλή τηλεθέαση, κορυφαία στη Google και στο ενδιαφέρον του κοινού

Μαρίνα Σάττι: Το πρόσωπο που αναζήτησαν περισσότερο οι Έλληνες το 2024

Η τεχνητή νοημοσύνη εισβάλλει στα κινητά και απειλεί τα προσωπικά μας δεδομένα

110 εκατομμύρια τουρίστες ετησίως: Η πρόβλεψη που θα «ξεσηκώσει» τους ντόπιους στην δημοφιλέστερη ευρωπαϊκή χώρα

Πώς θα απαγορεύσεις στη Meta να βάλει προσωπικά σου δεδομένα στην Τεχνητή Νοημοσύνη – Μην κάνεις την ανάρτηση που κάνουν όλοι

Πώς θα αλλάξει το διαδίκτυο ο νέος αλγόριθμος της Google με την ΑΙ προσθήκη: Ζούμε την αρχή του τέλους;

Είναι η νηστεία το μυστικό για μακροζωία;

Τεχνητή νοημοσύνη: Τελικά είναι για καλό ή για κακό; Μας βοηθάει ή μας αντικαθιστά;

Εσύ ξέρεις τι είναι το «Τεχνικό Χρέος»; «Χακάρει» το λάπτοπ σου και αποτελεί ένα πρόβλημα 1.5 τρισεκατομμυρίου δολαρίων

Η αναζήτηση της AI που θα σε κάνει να ξεχάσεις το γκουγκλάρισμα

Πότε η τεχνητή νοημοσύνη θα ξεπεράσει τον άνθρωπο;

Το νέο εργαλείο Τεχνητής Νοημοσύνης προκαλεί ανησυχία: Τα βίντεο που κάνουν την πραγματικότητα λιγότερο…πραγματική!

Τα σχέδια του Μαρκ Ζούκερμπεργκ για Τεχνητή Νοημοσύνη τρομάζουν: «Είναι σαν να δίνουμε τα σχέδια πυρηνικής βόμβας»

Αιτία για φόβο ή «σύμμαχος»: Ερευνητές ανέπτυξαν σύστημα AI που επιτίθεται σε άλλα AI

Οι «New York Times» κατά Microsoft και OpenAI – Γιατί μηνύουν τους τεχνολογικούς κολοσσούς για το ChatGPT

Μιλώντας με τους νεκρούς: Η νέα μόδα στην τεχνητή νοημοσύνη