Kiaknázatlan lehetőségek az AI modellképzés során - A YouTube leiratokon alapuló új AI modellek jogi aggályokat váltanak ki

Az OpenAI és a Google nemrégiben azonban a tech gigászok módszerei jogi aggályokat is felkeltettek. Az új AI modellek kikészítése során alkalmazott szövegfelismerési eljárások alapjait a YouTube videók leirataiból merítették, ami potenciálisan alkotók szerzői jogait sérti. A The New York Times cikke világos képet fest ezeknek a cégeknek a gyakorlatáról és erőfeszítéseiről, hogy növeljék az adathalmazt az AI rendszereik számára. Míg a vállalatok különféle technikákat alkalmaztak nagy mennyiségű adat megszerzésére, felmerültek kérdések az eljárások jogosságával kapcsolatban.

Az OpenAI-ról azt állítják, hogy Whisper beszédfelismerő eszközüket használva több mint egymillió órányi YouTube videót gépelt át, amelyeket aztán az új szöveg-videó generátoruk, a Sora képzésére használtak, a The New York Times jelentése szerint. Ez azután történt, hogy korábban a The Information azt állította, hogy az OpenAI YouTube videókat és podcastokat alkalmazott az AI rendszereik kiképzésére. Nyilvánvaló, hogy az OpenAI elnöke, Greg Brockman is részt vett ebben a projketben.

A Google gyakorlati tevékenységei is aggodalomra adnak okot, mivel a YouTube tartalom jogtalan scrape-elése vagy letöltése tilos. Matt Bryant, a Google szóvivője tisztázta, hogy a vállalat nem volt tudatában az OpenAI által felhasznált YouTube videóknak, és azt állította, hogy nem támogatják az ilyen jellegű cselekedeteket. Azonban a The New York Times cikke szerint olyan emberek is voltak a Google-nél, akik tudomással bírtak az OpenAI gyakorlatáról, de nem tettek semmit, talán saját YouTube videóik felhasználása miatt, hogy kiképezzék az AI modelljeiket.

Fontos megjegyezni, hogy a Google szerint csak azoknak a csatornáknak a videói kerülnek felhasználásra, amelyek hozzájárultak az experimenális programjukban való részvételhez. Az Engadget elérte mind a Google-t, mind az OpenAI-t, hogy kommentáljanak ebben az ügyben.

Továbbá a The New York Times cikke arra is fényt derített, hogy a Google 2022 júniusában frissítette adatvédelmi irányelveit, hogy azok a közszolgáltatást kapcsolódó tartalmakat is magukban foglalják, mint a Google Docs és a Google Sheets az AI modelleik és termékeik képzéséhez. Azonban Bryant hangsúlyozta, hogy ez kizárólag azok hozzájárulásával történik, akik egyetértenek a Google kísérleti funkcióinak használatával.

GYIK

1. Sértik-e az OpenAI és a Google a szerzői jogokat a YouTube leiratokon kiképzett AI modellekkel?
Az OpenAI és a Google által alkalmazott YouTube videók felhasználása során felmerülhet a szerzői jogok megsértésének lehetősége. A New York Times cikke rávilágított ezekre a lehetséges jogsértésekre, amelyek azt mutatják, hogy a YouTube tartalmak jogtalan scrape-elése vagy letöltése nem megengedett. Azonban a Google azt állítja, hogy csak olyan videókat használnak, amelyeknél a készítők hozzájárulásukat adták egy kísérleti programban való részvételre.

2. Milyen megközelítést alkalmazott az OpenAI az AI modelljük kiképzésére?
Az OpenAI állítólag a Whisper beszédfelismerő eszközüket alkalmazta több mint egymillió órányi YouTube videó gépelésére, amelyet aztán a szöveg-videó generátoruk, a Sora képzésére használtak. Ennek a megközelítésnek a célja egy nagy mennyiségű adat felhasználása volt az AI modell jobb teljesítményének érdekében.

3. Beismerte-e a Google az OpenAI által felhasznált YouTube videók használatát a kiképzés során?
A Google azt nyilatkozta, hogy nem volt tudatában az OpenAI által használt YouTube videóknak a kiképzés során és tisztázta, hogy nem támogatják a jogtalan scrape-elést vagy tartalmak letöltését. Azonban a jelentés azt sugallja, hogy néhány emberek a Google-nél tudtak az OpenAI gyakorlatáról, de nem tettek intézkedéseket, talán a Google saját YouTube videóinak felhasználása miatt, hogy kiképezzék az AI modelljeiket.

4. Hogyan bővítette a Google az adatvédelmi irányelveit, ahogyan azt a jelentés is említ?
A The New York Times jelentése szerint a Google 2022 júniusában frissítette az adatvédelmi irányelveit, hogy szélesebb körű nyilvános tartalmakat vegyenek bele, mint a Google Docs és a Google Sheets az AI modelleik és termékeik képzéséhez. Azonban a Google hangsúlyozza, hogy csak azok az adatokat használják, akik kifejezetten hozzájárultak a kísérleti funkcióik használatához.

5. Bármilyen hivatalos állásfoglalást tettek az ügyben az OpenAI és a Google?
Az Engadget elérte mind az OpenAI-t, mind a Google-t az ügyben való kommentálás érdekében. Jelenleg egyik cég sem tett hivatalos kinyilatkoztatást a The New York Times cikkében felvetett állításokra reagálva.

A cikkhez adott információk mellett íme néhány további részlet az ágazatról, a piaci előrejelzésekről és az AI ágazatban és a YouTube lejátszási listák felhasználásával történő modellek kiképzésével kapcsolatos problémákról:

Az AI ágazat az elmúlt években jelentős növekedést tapasztalt, a piaci méret várhatóan 2025-re eléri a 190,61 milliárd dollárt a MarketsandMarkets jelentése szerint. Ennek a növekedésnek az hajtóereje a növekvő igény az AI-alapú megoldások iránt különböző ágazatokban, mint például az egészségügy, a pénzügy, a kiskereskedelem és a gyártás területén.

Egyik kulcskérdés az AI ágazatban a megfelelő minőségű nagy mennyiségű adat szükségessége az AI modellek hatékony kiképzéséhez. Az OpenAI és a Google rendszeresen kutatja és próbálja ki különféle adatforrásokat, beleértve a nyilvánosan elérhető tartalmakat, mint például a YouTube videók a rendszereik teljesítményének javítása érdekében.

Azonban az AI modellek kiképzése során a YouTube videók használata jogi aggályokat vet fel a szerzői jogok tekintetében. Az alkotóknak kizárólagos joga van a tartalmukhoz, beleértve a reprodukálás és terjesztés jogát. A YouTube videók jogtalan scrape-elése vagy letöltése az alkotók beleegyezése nélkül potenciálisan megsérti ezeket a jogokat.

A szerzői jogok megsértése az AI ágazatban nem új keletű probléma. Korábban is voltak olyan esetek, amikor vállalatok pert indítottak más vállalatok ellen az AI kiképzési adatkészleteikben szerzői jogokkal védett anyagok felhasználásáért. Például 2019-ben egy fotós perelte be egyik jelentős AI vállalatot az ő engedélye nélkül használt szerzői jogvédelemmel védett képeik miatt.

Az ilyen szerzői jogi aggályok kezelése érdekében a Google és más vállalatok intézkedéseket hoztak annak biztosítására, hogy csak azok a videók kerülnek felhasználásra, amelyeknek a készítők hozzájárultak a kísérleti programokban való részvételhez. Ez azért történik, hogy betartsák a szerzői jogi törvényeket és tiszteletben tartsák az alkotók jogait.

Azonban a YouTube videók használata az AI modellek képzésére nem az egyedüli vitatott gyakorlat az ágazatban. Egyéb problémák közé tartozik a bias az AI algoritmusokban, az adatvédelmi aggályok és az AI döntéshozatal erkölcsi következményei.

Az AI ágazat továbbra is fejlődik, ezért kulcsfontosságú, hogy a vállalatok kezeljék ezeket a jogi és erkölcsi kérdéseket annak érdekében, hogy felelős és törvényes módon használják az adatokat az AI modellek képzésére.

További információkért az AI ágazatról és a kapcsolódó problémákról látogasson el a következő weboldalakra:

MarketsandMarkets: Piaci kutatási jelentések és iparági elemzések szolgáltatása különböző ágazatok számára.

The source of the article is from the blog shakirabrasil.info