Tehnološki divovi optuženi za neovlašteno korištenje YouTube sadržaja za obuku AI-a

Nizvodno najpoznatijih tehnoloških divova, uključujući Apple, suočava se s optužbama da treniraju AI modele koristeći YouTube isječke bez pristanka tvoraca sadržaja. Umjesto da dobiju dopuštenje, ove tvrtke su izvukle titlove iz preko 170.000 video zapisa kroz aplikaciju treće strane.

Pogođeni kreatori kao što su popularni tehno vloger Marques Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver i Jimmy Kimmel svi su pogođeni ovom neovlaštenom upotrebom njihovog sadržaja. Izvađeni titlovi su transkripcije video sadržaja, jasno kršeći politike YouTube platforme.

Otkrivanje Istrage i Rezultata

Istraga sprovedena od strane Proof News-a otkrila je kako su neki od najbogatijih svjetskih kompanija koristili materijale iz hiljada YouTube videozapisa za treniranje njihovih AI modela, ignorirajući platforme regulacije. Istraga je otkrila da su titlovi iz 173.536 YouTube videozapisa, koji potječu iz preko 48.000 kanala, korišteni od strane tehnoloških divova poput Anthropic, Nvidia, Apple i Salesforce.

Preuzimanja su izvršena od strane EleutherAI, neprofitne organizacije koja pomaže developerima u treniranju jezičnih modela. Unatoč njihovom deklariranom cilju pružanja resursa za treniranje malim developerima i akademicima, skup podataka također je usvojen od strane velikih tehnoloških firmi, uključujući Apple.

Korištenje Pile skupa podataka

Kako je navedeno u istraživačkom radu objavljenom od strane EleutherAI, skup podataka u pitanju je dio kompilacije poznate kao Pile. Ti skupovi podataka su javno dostupni za svakoga na internetu, pod uvjetom da ima potrebne resurse i računalnu moć. Ne samo tehnološki divovi već i akademici i developeri izvan velikih tehnoloških kompanija koristili su ove skupove podataka.

Kompanije poput Apple-a, Nvidia-e i Salesforce-a, s evaluacijama u stotinama milijardi i trilijunima dolara, detaljno su u svojim istraživačkim radovima opisali kako su iskoristili Pile za potrebe treniranja AI-a. Izvještaji ukazuju da je Apple koristio Pile za treniranje OpenELM-a, jezični model lansiran u travnju, ubrzo prije otkrivanja novih AI sposobnosti za iPhone-e i MacBookove.

Daljnje Implikacije Neovlaštene Upotrebe Sadržaja za AI Treniranje

Iako je početna istraga istaknula opsežno neovlašteno izdvajanje YouTube sadržaja za treniranje AI modela, iz ove prakse proizlaze dodatne implikacije. Korištenje titlova iz YouTube videozapisa od strane tehnoloških divova bez eksplicitnog pristanka tvoraca sadržaja postavlja nekoliko ključnih pitanja koja zaslužuju istraživanje.

Ključna Pitanja:

1. Legalne Posljedice: Koje su potencijalne pravne posljedice za tehnološke kompanije uključene u neovlaštenu upotrebu YouTube sadržaja za treniranje AI-a?

Odgovor: Kompanije se mogu suočiti s tužbama za kršenje autorskih prava, štetama i oštećenjem reputacije zbog kršenja intelektualnih prava tvoraca sadržaja bez odgovarajuće autorizacije.

2. Etički Aspekti: Kako neovlaštena upotreba sadržaja odražava na etičke standarde ovih tehnoloških divova?

Odgovor: Nedostatak pristanka i transparentnosti u korištenju sadržaja trećih strana za razvoj AI-a izaziva zabrinutost zbog etičkih praksi, prava na privatnost i poštene naknade za tvorce.

3. Brige Oko Privatnosti Podataka: Kakve implikacije ima izdvajanje titlova iz YouTube videozapisa na privatnost i sigurnost podataka korisnika?

Odgovor: Neovlašteno prikupljanje video sadržaja za treniranje AI-a može ugroziti privatnost korisnika, budući da osobni podaci u titlovima mogu biti zloupotrebljeni ili nepropisno rukovani.

Izazovi i Kontroverze:

Kontroverza oko neovlaštene upotrebe YouTube sadržaja za treniranje AI modela postavlja nekoliko izazova i kontroverzi koje zaslužuju pažnju i rješenje.

Prednosti:

1. Isplativo Treniranje: Pristupanje javno dostupnim skupovima podataka poput Pile s platformi poput YouTubea može smanjiti troškove povezane s prikupljanjem i anotiranjem ogromnih količina podataka za treniranje.

2. Poboljšane Sposobnosti AI: Korištenjem raznovrsnih izvora sadržaja za treniranje AI modela, tehnološki divovi mogu poboljšati točnost i sposobnosti svojih AI sustava za buduće razvoje.

Mane:

1. Nedostatak Transparentnosti: Tajno izdvajanje video sadržaja bez odgovarajuće pripadnosti ili pristanka narušava transparentnost i odgovornost u procesima razvoja AI-a.

2. Kršenje Intelektualnih Prava: Neovlaštena upotreba autorski zaštićenih materijala za treniranje AI-a postavlja pitanja o pravima intelektualnog vlasništva i poštene naknade za tvorce sadržaja.

Za više uvida o etici umjetne inteligencije, privatnosti podataka i regulacijama tehnologije, posjetite AoL News.

Cybersecurity Expert Demonstrates How Hackers Easily Gain Access To Sensitive Information