Giganții tehnologiei acuzați de utilizarea neautorizată a conținutului de pe YouTube pentru antrenarea IA

Un număr de gigantici din domeniul tehnologiei, inclusiv Apple, se confruntă cu acuzații că antrenează modele de inteligență artificială folosind clipuri de pe YouTube fără consimțământul creatorilor de conținut. În loc să obțină permisiunea, aceste companii au extras subtitrările din peste 170.000 de videoclipuri printr-o aplicație terță.

Creatorii afectați precum cunoscuții vloggeri tech Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver și Jimmy Kimmel au fost toți afectați de această utilizare neautorizată a conținutului lor. Subtitrările extrase sunt transcrieri ale conținutului video, o încălcare clară a politicilor YouTube-ului.

Desfășurarea investigației și concluziile

O investigație efectuată de Proof News a aruncat lumină asupra modului în care unele dintre cele mai bogate companii la nivel global au utilizat materiale din mii de videoclipuri YouTube pentru a-și antrena modelele de IA, ignorând regulamentele platformei. Ancheta a relevat că subtitrările din 173.536 de videoclipuri YouTube, provenind de la peste 48.000 de canale, au fost folosite de titani tech precum Anthropic, Nvidia, Apple și Salesforce.

Descărcările au fost efectuate de EleutherAI, o organizație non-profit care ajută dezvoltatorii să antreneze modele de limbaj. În ciuda scopului declarat de a oferi resurse de antrenament pentru dezvoltatori mici și academicieni, setul de date a fost adoptat și de mari companii tech, inclusiv Apple.

Utilizarea setului de date Pile

Conform unui articol de cercetare publicat de EleutherAI, setul de date în discuție face parte dintr-o compilație cunoscută sub numele de Pile. Aceste seturi de date sunt accesibile în mod deschis oricui pe internet, cu condiția să dețină resursele și puterea de calcul necesare. Nu doar gigantii tech, ci și academicieni și dezvoltatori în afara marilor companii tech au utilizat aceste seturi de date.

Companii precum Apple, Nvidia și Salesforce, cu evaluări în sute de miliarde și trilioane de dolari, au detaliat în articolele lor de cercetare modul în care au folosit Pile în scopuri de antrenament AI. Rapoartele indică faptul că Apple a utilizat Pile pentru a antrena OpenELM, un model de limbaj lansat în aprilie, puțin timp înainte de a dezvălui noi capacități de inteligență artificială pentru iPhone-uri și MacBook-uri.

Alte implicatii ale utilizării neautorizate a conținutului pentru antrenamentul AI

În timp ce investigația inițială a evidențiat extragerea generalizată și neautorizată a conținutului de pe YouTube pentru antrenamentul modelelor de IA, se ridică implicații suplimentare din această practică. Utilizarea de către gigantii tech a subtitrărilor din videoclipuri YouTube fără consimțământ explicit din partea creatorilor de conținut ridică mai multe întrebări critice care merită explorate.

Întrebări cheie:

1. Ramificații legale: Care sunt consecințele legale potențiale pentru companiile tech implicate în utilizarea neautorizată a conținutului de pe YouTube pentru antrenamentul AI?

Răspuns: Companiile pot fi supuse la acțiuni în justiție pentru încălcarea drepturilor de autor, daune și prejudicii de reputație pentru încălcarea drepturilor de proprietate intelectuală ale creatorilor de conținut fără o autorizație adecvată.

2. Considerații etice: Cum se reflectă utilizarea neautorizată a conținutului asupra standardelor etice ale acestor giganți tehnologici?

Răspuns: Lipsa consimțământului și transparenței în utilizarea conținutului terților pentru dezvoltarea AI ridică probleme referitoare la practicile etice, drepturile la confidențialitate și compensația echitabilă pentru creatori.

3. Îngrijorări privind confidențialitatea datelor: Ce implicații are extragerea subtitrărilor din videoclipuri YouTube asupra confidențialității și securității datelor utilizatorilor?

Răspuns: Extragerile neautorizate ale conținutului video pentru antrenamentul AI ar putea compromite confidențialitatea utilizatorilor, deoarece informațiile personale incluse în subtitrări ar putea fi utilizate sau gestionate defectuos.

Provocări și controverse:

Controversa privind utilizarea neautorizată a conținutului de pe YouTube pentru antrenamentul AI ridică mai multe provocări și controverse care merită atenție și rezolvare.

Avantaje:

1. Antrenament eficient din punct de vedere al costurilor: Accesul la seturi de date disponibile public precum Pile de pe platforme precum YouTube poate reduce costurile asociate cu colectarea și adnotarea unor cantități masive de date de antrenament.

2. Capacități AI îmbunătățite: Prin exploatarea surselor diverse de conținut pentru antrenamentul modelelor de IA, giganții tech ar putea îmbunătăți precizia și versatilitatea sistemelor lor de AI pentru viitoarele dezvoltări.

Dezavantaje:

1. Lipsa transparenței: Extracția secretă a conținutului video fără atribuire corespunzătoare sau consimțământ subminează transparența și responsabilitatea în procesele de dezvoltare a AI.

2. Încălcarea drepturilor de proprietate intelectuală: Utilizarea neautorizată a materialelor protejate prin drepturi de autor pentru antrenamentul AI ridică probleme referitoare la drepturile de proprietate intelectuală și compensația echitabilă pentru creatorii de conținut.

Pentru mai multe informații despre etica AI, confidențialitatea datelor și regulamentele tehnologice, vizitați AoL News.

The source of the article is from the blog meltyfan.es

Privacy policy
Contact