AI Models Trained on YouTube Transcriptions: Transforming Data Ethics

Σε μια πρόσφατη εξέλιξη, η OpenAI και η Google έχουν βρεθεί υπό επικρίση για την εκπαίδευση των μοντέλων τεχνητής νοημοσύνης τους χρησιμοποιώντας μεταγραφές βίντεο από το YouTube, πιθανόν παραβιάζοντας τα πνευματικά δικαιώματα των δημιουργών. Το ρεπορτάζ της New York Times ρίχνει φως στις πρακτικές αυτών των τεχνολογικών γιγάντων και στις προσπάθειές τους να μεγιστοποιήσουν την τροφοδοσία δεδομένων για τα συστήματά τους. Παρά ταύτα, έχουν τεθεί ερωτηματικά σχετικά με τη νομιμότητα των μεθόδων τους.

Σύμφωνα με το ρεπορτάζ, η OpenAI φέρεται να χρησιμοποίησε το εργαλείο αναγνώρισης μικροφώνου Whisper της για τη μεταγραφή πάνω από ένα εκατομμύριο ώρες βίντεο στο YouTube, τα οποία στη συνέχεια χρησιμοποιήθηκαν για την εκπαίδευση του τελευταίου γεννήτορα κειμένου-προς-βίντεο τους, του Sora, όπως αναφέρει το NYT. Αυτό ακολούθησε προηγούμενες καταγγελίες από την εφημερίδα The Information που ανέφεραν ότι η OpenAI είχε χρησιμοποιήσει βίντεο από το YouTube και podcasts για την εκπαίδευση των συστημάτων τεχνητής νοημοσύνης της. Σημαντικό να σημειωθεί ότι ο πρόεδρος της OpenAI, Greg Brockman, φέρεται να εμπλέκεται στο εν λόγω έργο.

Έχουν ανακύψει και ανησυχίες σχετικά με τις πρακτικές της Google, καθώς η μη εξουσιοδοτημένη ανάκτηση ή λήψη περιεχομένου από το YouTube είναι απαγορευμένη. Ο εκπρόσωπος της Google, Matt Bryant, διευκρίνισε ότι η εταιρεία δεν γνώριζε τη χρήση της OpenAI σε βίντεο του YouTube και δήλωσε πως δεν υποστηρίζουν τέτοιες ενέργειες. Ωστόσο, το ρεπορτάζ του NYT υποδηλώνει πως υπήρχαν άτομα στη Google που γνώριζαν τις πρακτικές της OpenAI αλλά δεν ενήργησαν, πιθανόν λόγω της ίδιας της χρήσης της Google σε βίντεο του YouTube για την εκπαίδευση των μοντέλων τεχνητής νοημοσύνης της.

Σημαντικό είναι να σημειωθεί ότι η Google υποστηρίζει πως χρησιμοποιεί μόνο βίντεο από δημιουργούς που έχουν συμφωνήσει να συμμετέχουν στο πειραματικό πρόγραμμά της. Η Engadget έχει απευθυνθεί τόσο στην Google όσο και στην OpenAI για τα σχόλιά τους για το θέμα αυτό.

### Συχνές Ερωτήσεις (FAQ)

1. Παραβιάζουν η OpenAI και η Google τα πνευματικά δικαιώματα με την εκπαίδευση των μοντέλων τους σε μεταγραφές από το YouTube;
– Υπάρχουν ανησυχίες ότι η χρήση βίντεο από το YouTube από την OpenAI και τη Google για την εκπαίδευση των μοντέλων τους μπορεί να παραβιάζει τα πνευματικά δικαιώματα των δημιουργών. Το ρεπορτάζ της New York Times τονίζει αυτές τις πιθανές παραβάσεις, υποδεικνύοντας ότι η μη εξουσιοδοτημένη ανάκτηση ή λήψη περιεχομένου από το YouTube δεν επιτρέπεται. Ωστόσο, η Google δηλώνει ότι χρησιμοποιεί μόνο βίντεο από δημιουργούς που έχουν συμφωνήσει να συμμετάσχουν σε πειραματικά προγράμματά της.

2. Ποια προσέγγιση ακολούθησε η OpenAI στην εκπαίδευση του μοντέλου της;
– Η OpenAI φέρεται να χρησιμοποίησε το εργαλείο αναγνώρισης φωνής Whisper της για τη μεταγραφή πάνω από ένα εκατομμύριο ώρες βίντεο από το YouTube, τα οποία στη συνέχεια χρησιμοποιήθηκαν για την εκπαίδευση του γεννητορικού κειμένου-προς-βίντεο τους, του Sora. Η προσέγγιση αυτή είχε στόχο την αξιοποίηση μεγάλου όγκου δεδομένων για βελτιωμένη απόδοση του μοντέλου τεχνητής νοημοσύνης.

3. Έχει αναγνωρίσει η Google τη χρήση από την OpenAI των βίντεο από το YouTube για εκπαίδευση;
– Η Google δήλωσε ότι δεν ήταν ενήμερη για τη χρήση από την OpenAI των βίντεο του YouTube για εκπαίδευση των μοντέλων της τεχνητής νοημοσύνης και διευκρίνισε ότι δεν υποστηρίζουν τη μη εξουσιοδοτημένη ανάκτηση ή λήψη περιεχομένου. Ωστόσο, το ρεπορτάζ υποδηλώνει ότι μερικά άτομα στη Google γνώριζαν για τις πρακτικές της OpenAI αλλά δεν κίνησαν κάποια δράση, πιθανόν λόγω της ίδιας χρήσης της Google σε βίντεο του YouTube για την εκπαίδευση των μοντέλων της τεχνητής νοημοσύνης της.

4. Πώς διευρύνθηκε η πολιτική απορρήτου της Google, όπως αναφέρθηκε στο ρεπορτάζ;
– Το ρεπορτάζ του NYT αποκαλύπτει ότι η Google τροποποίησε την πολιτική απορρήτου της τον Ιούνιο του 2022 για να καλύψει μια ευρύτερη γκάμα δημόσιου διαθέσιμου περιεχομένου, όπως τα Google Docs και τα Google Sheets, για την εκπαίδευση των μοντέλων της τεχνητής νοημοσύνης και των προϊόντων της. Ωστόσο, ο Bryant υπογραμμίζει ότι αυτό γίνεται μόνο με την ρητή άδεια των χρηστών που επιλέγουν να συμμετάσχουν στα πειραματικά της χαρακτηριστικά. Δηλώνει επίσης ότι η αλλαγή της πολιτικής δεν τους ώθησε να ξεκινήσουν την εκπαίδευση των μοντέλων τους σε επιπλέον τύπους δεδομένων.

5. Έχουν παράσχει η OpenAI και η Google κάποια επίσημη καταγγελία σχετικά με αυτές τις κατηγορίες;
– Η Engadget έχει επικοινωνήσει τόσο με την OpenAI όσο και με την Google για τα σχόλιά τους επί της υπόθεσης. Μέχρι στιγμής, δεν έχουν υπάρξει επίσημες ανακοινώσεις από καμία από τις δύο εταιρείες σχετικά με τις κατηγορίες που αναφέρονται στο ρεπορτάζ της New York Times.

Εκτός από τις πληροφορίες που παρέχονται στο άρθρο, παραθέτουμε επιπλέον λεπτομέρειες για τον τομέα, προβλέψεις αγοράς και θέματα που σχετίζονται με τη βιομηχανία της τεχνητής νοημοσύνης και την εκπαίδευση μοντέλων χρησιμοποιώντας μεταγραφές από το YouTube.

Η βιομηχανία της τεχνητής νοημοσύνης έχει βιώσει σημαντική ανάπτυξη τα τελευταία χρόνια, με το μέγεθος της αγοράς να αναμένεται να φτάσε

The source of the article is from the blog mivalle.net.ar