Számos technológiai óriás, köztük az Apple, azt az vádat állja, hogy AI modelleit olyan YouTube videók felhasználásával képezték ki, amelyeknek a tartalomkészítők engedélyét nem szerezték meg. Az engedély kérése helyett ezek a cégek feliratokat vontak ki több mint 170 000 videóból egy harmadik fél által fejlesztett alkalmazáson keresztül.
Az érintett készítők, mint például a közismert tech videós Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver és Jimmy Kimmel mind károsultak lettek ennek az engedély nélküli tartalomhasználatnak. Az kivont feliratok a videótartalom szöveges leírásai, ami szemmel láthatóan megsérti a YouTube irányelveit.
A Vizsgálat és Eredmények Nyilvánosságra Hozatala
A Proof News által végzett vizsgálat fényt derített arra, hogy a leggazdagabb világcégek miként használták fel több ezer YouTube videóból származó anyagokat, hogy képezzék be AI modelljeiket, figyelmen kívül hagyva a platform szabályait. A vizsgálat kimutatta, hogy a feliratokat 173 536 YouTube videóból vették ki, amelyek több mint 48 000 csatornáról származtak, és ezeket használták AI modelleket fejlesztő cégek, mint például az Anthropic, Nvidia, Apple és Salesforce.
A letöltéseket az EleutherAI végezte, egy nonprofit szervezet, amely segíti a fejlesztőket a nyelvi modellek képzésében. Annak ellenére, hogy a nyilatkozott célja az volt, hogy kis fejlesztőknek és akadémikusoknak biztosítson képzési forrásokat, a datasetet a nagy technológiai cégek is felhasználták, beleértve az Apple-t.
A Pile Dataset Használata
Ahogyan azt az EleutherAI által kiadott kutatási dokumentumban ismertették, a kérdéses dataset része a Pile-nak ismert összeállításnak. Ezek a datasetek nyilvánosan hozzáférhetők bárki számára az interneten, feltéve, hogy rendelkeznek a szükséges erőforrásokkal és számítási kapacitással. Nemcsak a technológiai óriások, de az akadémikusok és fejlesztők is használták ezeket a dataseteket.
Az Apple, a Nvidia és a Salesforce olyan cégek, amelyeknek az értékelése százmilliárdok és ezredek nagyságrendjében van, részletesen leírták kutatási dokumentumaikban, hogy miként használták fel a Pile-t AI képzési célokra. Jelentések szerint az Apple a Pile-t használta arra, hogy képezze az OpenELM-et, egy nyelvi modellt, amelyet áprilisban indítottak el, nem sokkal az új AI képességek nyilvánosságra hozatala előtt az iPhone-ok és MacBook-ok számára.
Az Engedély Nélküli Tartalomhasználat AI Képzésre Jelentett További Következményei
Bár az első vizsgálat kiemelte a YouTube tartalom engedély nélküli kinyerésének az AI modellek képzéséhez történő felhasználását, ennek a gyakorlatnak további következményei is adódnak. A tech óriások a YouTube videókból kinyert feliratok felhasználása, tartalomkészítők kifejezett beleegyezése nélkül, számos kritikus kérdést vet fel, amelyek alapos vizsgálatot érdemelnek.
Kulcskérdések:
1. Jogi Következmények: Milyen lehetséges jogi következményekkel kell számolniuk a technológiai cégeknek, akik engedély nélkül használják fel a YouTube tartalmat az AI képzéshez?
Válasz: Az üzemeltetők szerzői jogi károkat fizethetnek, illetve kárigényekkel és hírnévkárossal szembesülhetnek, amiért megsértették a tartalomkészítők szellemi tulajdonjogait a megfelelő engedély hiányában.
2. Etikai Megfontolások: Hogyan hat a tartalom engedély nélküli felhasználása ezeknek a technológiai óriásoknak az etikai normákra?
Válasz: A hiányzó beleegyezés és átláthatóság a harmadik fél által készített tartalmak felhasználásában az AI fejlesztés során etikai gyakorlatok, adatvédelmi jogok és a tartalomkészítők méltányos kárpótlásának kérdései miatt aggodalomra ad okot.
3. Adatvédelmi Aggodalmak: Milyen következményei lehetnek a YouTube videók feliratának kinyerésének a felhasználói adatvédelemre és biztonságra?
Válasz: A videótartalom engedély nélküli kitelepítése az AI képzés céljából veszélyeztetheti a felhasználók magánéletét, mivel a feliratokba ágyazott személyes információkat vissza lehetne élni vagy nem megfelelően kezelni.
Kihívások és Vitaforrások:
Azon viták és kihívások társulnak a YouTube tartalom engedély nélküli felhasználásával kapcsolatos AI képző gyakorlatokhoz, melyek figyelmet és megoldást igényelnek.
Előnyök:
1. Költséghatékony Képzés: A nyilvánosan elérhető datasetek, mint például a Pile a YouTube-hoz hasonló platformokról származókhoz hasonlóan csökkenthetik a hatalmas mennyiségű képzési adatok gyűjtésével és annotálásával járó költségeket.
2. Fejlett AI Képességek: Diverz források felhasználásával az AI modellek képzésére a technológiai óriások javíthatják azok pontosságát és sokoldalúságát a jövőbeli fejlesztésekhez.
Hátrányok:
1. Átláthatóság Hiánya: A videótartalom titokzatos kinyerése a megfelelő hozzárendelés vagy beleegyezés nélkül aláássa a transzparenciát és a számotási számlázhatóságot az AI fejlesztési folyamatokban.
2. Szellemi Tulajdonjogok Sértése: A szerzői jogi anyagok engedély nélküli felhasználása az AI képzéshez aggodalmakat vet fel a szellemi tulajdonjogok és a tartalomkészítők méltányos kárpótlása miatt.
További információkért az AI-etika, adatvédelem és technológiai szabályozások területén látogass el az AoL News oldalra.