Η Αναζήτηση Δεδομένων: Τεχνολογικές Εταιρείες Σπρώχνουν τα Όρια για την Προαγωγή της Τεχνητής Νοημοσύνης

Στον αγώνα για την ηγεσία στον κόσμο της τεχνητής νοημοσύνης (Τ.Ν.), τεχνολογικές εταιρείες όπως η OpenAI, η Google και η Meta αντιμετωπίζουν προκλήσεις στην απόκτηση των απαραίτητων ψηφιακών δεδομένων για την προαγωγή της τεχνολογίας τους. Αυτό το άρθρο ρίχνει φως στις στρατηγικές που χρησιμοποιούν αυτές οι εταιρείες, στις πιθανές παραβάσεις κανόνων και νόμων, καθώς και στην αυξανόμενη δίψα για δεδομένα στον χώρο της Τ.Ν.

Η OpenAI, γνωστή για τα ισχυρά μοντέλα Τ.Ν. της, αντιμετώπισε πρόβλημα προμήθειας στα τέλη του 2021 όταν εξάντλησε όλες τις αξιόπιστες πηγές αγγλόφωνου κειμένου στο διαδίκτυο για την εκπαίδευση του συστήματος T.Ν. της. Για να ξεπεράσει αυτό το εμπόδιο, οι ερευνητές της OpenAI ανέπτυξαν ένα εργαλείο αναγνώρισης φωνής με την ονομασία Whisper. Το εργαλείο αυτό μετέγραφε τον ήχο από βίντεο του YouTube, παρέχοντας έτσι νέο συνομιλητικό κείμενο που θα μπορούσε να κάνει το σύστημα T.Ν. τους πιο έξυπνο.

Ωστόσο, εμφανίστηκαν ανησυχίες μέσα στην OpenAI για την πιθανή παραβίαση των κανόνων του YouTube χρησιμοποιώντας τα βίντεο τους για αυτή την “ανεξάρτητη” εφαρμογή. Παρ’ όλα αυτά, μια ομάδα της OpenAI, υπό την καθοδήγηση του Greg Brockman, του προέδρου της OpenAI, προχώρησε στη μεταγραφή πάνω από ένα εκατομμύριο ώρες βίντεο του YouTube. Τα παραγόμενα κείμενα χρησιμοποιήθηκαν στη συνέχεια για την εκπαίδευση του GPT-4, ενός από τα ισχυρότερα μοντέλα Τ.Ν. στον κόσμο και τη βάση για την τελευταία έκδοση του ChatGPT.

Επίσης, στη Meta (πρώην Facebook), οι διευθυντές, οι νομικοί και οι μηχανικοί της εταιρείας συζήτησαν την εξαγορά του οικοδομήματος εκδόσεων Simon & Schuster για να αποκτήσουν πρόσβαση σε μεγάλα γραπτά έργα. Επίσης, η εταιρεία συζήτησε την εξαγωγή δεδομένων με πνευματικά δικαιώματα από διάφορες πηγές στο διαδίκτυο, είναι έτοιμη να αντιμετωπίσει πιθανές αγωγές ενώπιον των δικαστηρίων αντί να διαπραγματευτεί άδειες με εκδότες και δημιουργούς περιεχομένου.

Η ανάγκη για δεδομένα έχει γίνει κρίσιμη στην ανάπτυξη των μοντέλων Τ.Ν. Μέχρι το 2020, μοντέλα όπως το GPT-2 βασίζονταν σε σχετικά μικρές ποσότητες δεδομένων εκπαίδευσης. Ωστόσο, παρατηρήθηκε μια σημαντική αλλαγή με την κυκλοφορία του GPT-3, όπου οι ερευνητές άρχισαν να συμπεριλαμβάνουν πολύ μεγαλύτερα σύνολα δεδομένων για την αποτελεσματική εκπαίδευση των μοντέλων.

Καθώς ο κλάδος της Τ.Ν. συνεχίζει να σπρώχνει τα όρια, η απόκτηση μεγάλων ποσοτήτων δεδομένων έχει γίνει κρίσιμη για περαιτέρω προόδους. Εταιρείες όπως η OpenAI και η Meta είναι διατεθειμένες να υπερβούν τα όρια, πιθανότατα παραβιάζοντας κανόνες και εκτίθεντας τον εαυτό τους σε νομικούς κινδύνους για να καλύψουν τις ανάγκες τους σε δεδομένα. Η συζήτηση περί των ηθικών και νομικών πτυχών της απόκτησης δεδομένων στον κλάδο της Τ.Ν. πιθανότατα θα συνεχίσει καθώς η τεχνολογία προχωρά.

Συχνές Ερωτήσεις:

Q: Τι είναι η Τ.Ν. (Τεχνητή Νοημοσύνη);
A: Η Τ.Ν. αναφέρεται στην ανάπτυξη υπολογιστικών συστημάτων που είναι ικανά να εκτελούν εργασίες που συνήθως απαιτούν ανθρώπινη νοημοσύνη.

Q: Τι είναι το GPT-4;
A: Το GPT-4 είναι ένα από τα ισχυρότερα μοντέλα Τ.Ν. που αναπτύχθηκαν από την OpenAI. Αντιπροσωπεύει το Generative Pre-trained Transformer 4 και χρησιμοποιείται για τη δημιουργία κειμένου που μοιάζει ανθρώπινο, βασιζόμενο σε δοσμένα παρακίνητρα.

Q: Τι είναι το ChatGPT και το Whisper;
A: Το ChatGPT είναι ένα chatbot που αναπτύχθηκε από την OpenAI, κινούμενο από μοντέλα GPT. Το Whisper είναι ένα εργαλείο αναγνώρισης φωνής που δημιουργήθηκε από την OpenAI για να μεταγράφει ήχο από βίντεο του YouTube.

Πηγές:
– The New York Times: www.nytimes.com
– Epoch: www.epoch.com

The source of the article is from the blog enp.gr