Novi izazovi AI modela treniranih na transkripcijama s YouTubea

U nedavnom razvoju, OpenAI i Google došli su pod povećalom javnosti zbog treniranja svojih AI modela koristeći transkripcije YouTube videozapisa, potencijalno kršeći autorska prava kreatora. Izvještaj New York Timesa osvjetljava prakse ovih tehnoloških divova i njihove napore za maksimizaciju podataka za svoje AI sustave. Iako su tvrtke koristile različite tehnike kako bi dobile veliku količinu podataka, postavlja se pitanje zakonitosti njihovih metoda.

Navodno, OpenAI je koristio svoj alat za prepoznavanje govora Whisper za transkripciju preko milijun sati YouTube videozapisa, koji su zatim korišteni za treniranje njihovog najnovijeg generatora teksta-u-video, Sora, prema izvještaju NYT-a. To slijedi ranije tvrdnje The Information da je OpenAI koristio YouTube videozapise i podcaste za treniranje svojih AI sustava. Važno je istaknuti da je predsjednik OpenAI-a, Greg Brockman, navodno bio uključen u ovaj projekt.

Postavljeni su i zabrinutosti oko praksi tvrtke Google, budući da je neovlašteno skidanje ili preuzimanje YouTube sadržaja zabranjeno. Matt Bryant, glasnogovornik Googlea, pojasnio je da tvrtka nije bila svjesna korištenja YouTube videozapisa od strane OpenAI-a te je izjavio da ne podržavaju takve postupke. Međutim, izvještaj NYT-a sugerira da su pojedinci u Googleu bili svjesni praksi OpenAI-a, ali nisu poduzeli nikakve radnje, možda zbog vlastitog korištenja YouTube videozapisa za treniranje svojih AI modela.

Važno je istaknuti da Google tvrdi da koristi samo videozapise stvoren od strane autora koji su pristali sudjelovati u njihovom eksperimentalnom programu. Engadget je kontaktirao i Google i OpenAI za njihove komentare o ovom pitanju.

Dodatne informacije:

Industrija umjetne inteligencije doživljava značajan rast u posljednjim godinama, a prema izvješću MarketsandMarkets, očekuje se da će veličina tržišta doseći 190,61 milijardu dolara do 2025. godine. Taj rast potaknut je rastućom potražnjom za AI rješenjima u raznim sektorima poput zdravstva, financija, maloprodaje i proizvodnje.

Jedan od ključnih izazova u industriji AI jest potreba za velikim količinama visokokvalitetnih podataka kako bi se AI modeli učinkovito trenirali. Tvrtke poput OpenAI-a i Googlea stalno istražuju različite izvore podataka, uključujući javno dostupan sadržaj poput YouTube videozapisa, kako bi poboljšale performanse svojih AI sustava.

Međutim, korištenje YouTube videozapisa za treniranje AI modela podiže pitanja o povredi autorskih prava. Kreatori imaju isključiva prava na svoj sadržaj, uključujući pravo na reprodukciju i distribuciju. Neovlašteno skidanje ili preuzimanje YouTube videozapisa bez pristanka kreatora može potencijalno povrijediti ta prava.

Pitanje kršenja autorskih prava u industriji AI nije novo. Ranije su se dogodili slučajevi u kojima su tvrtke tužene zbog korištenja autorskog materijala u njihovim skupovima za treniranje AI. Primjerice, 2019. godine, fotograf je podigao tužbu protiv velike AI tvrtke zbog korištenja njegovih autorskih slika bez dozvole.

Bolesti kampanje za ovo pitanje, tvrtke poput Googlea su poduzimale mjere kako bi osigurale da koriste samo videozapise od autora koji su pristali sudjelovati u njihovim eksperimentalnim programima. To se radi u skladu s autorskim pravima i poštovanjem prava kreatora.

Dok se industrija AI nastavlja razvijati, ključno je da tvrtke usmjere ovaj zakonski i etički razmatranja kako bi osigurale odgovornu i zakonitu upotrebu podataka u treniranju AI modela.

FAQ

1. Krše li OpenAI i Google autorska prava treniranjem svojih AI modela na YouTube transkripcijama?
Postoje zabrinutosti da korištenje YouTube videozapisa od strane OpenAI i Googlea za treniranje njihovih AI modela može povrijediti autorska prava kreatora. Izvještaj New York Timesa ističe ove potencijalne povrede, ukazujući na to da neovlašteno skidanje ili preuzimanje YouTube sadržaja nije dopušteno. Međutim, Google tvrdi da koriste samo videozapise od autora koji su pristali sudjelovati u eksperimentalnom programu.

2. Koje je pristup uzeo OpenAI u treniranju svojeg AI modela?
Prema izvještaju, OpenAI je navodno koristio svoj alat za prepoznavanje govora Whisper za transkripciju preko milijun sati YouTube videozapisa, koji su zatim korišteni za treniranje njihovog generatora teksta-u-video, Sora. Ovaj pristup imao je za cilj iskoristiti veliku količinu podataka kako bi se poboljšala performansa AI modela.

3. Je li Google priznao korištenje YouTube videozapisa od strane OpenAI-a za treniranje?
Google je izjavio da nisu bili svjesni korištenja YouTube videozapisa od strane OpenAI-a za treniranje njihovih AI modela te je pojasnio da ne podržavaju neovlašteno skidanje ili preuzimanje sadržaja. Međutim, izvještaj sugerira da su pojedinci u Googleu bili svjesni praksi OpenAI-a, ali nisu poduzeli radnje, možda zbog njihovog vlastitog korištenja YouTube videozapisa za treniranje njihovih AI modela.

4. Kako je Google proširio svoju politiku privatnosti, kako je navedeno u izvještaju?
Izvještaj NYT-a otkriva da je Google ažurirao svoju politiku privatnosti u lipnju 2022. godine kako bi obuhvatio širi spektar javno dostupnog sadržaja, poput Google Docs i Google Sheets, za treniranje njihovih AI modela i proizvoda. Međutim, Google ističe da koriste ove podatke isključivo uz izričitu dozvolu korisnika koji se prijavljuju za njihove eksperimentalne značajke.

5. Jesu li OpenAI i Google pružili službene izjave u vezi s ovim optužbama?
Engadget je kontaktirao OpenAI i Google za njihove komentare o ovom pitanju. Trenutno nema službenih izjava nijedne tvrtke u vezi s optužbama navedenima u izvještaju New York Timesa.

Izvor: [MarketsandMarkets](a href=”https://www.marketsandmarkets.com”)

The source of the article is from the blog rugbynews.at