Skupina technologických gigantov, vrátane Apple, čelí obvineniam z trénovania modelov AI pomocou videí z YouTube bez súhlasu tvorcov obsahu. Namiesto získania povolenia tieto spoločnosti extrahovali titulky z viac ako 170 000 videí pomocou aplikácie tretích strán.
Postihnutí tvorcovia obsahu, ako napríklad populárny technologický youtuber Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver a Jimmy Kimmel, boli všetci ovplyvnení týmto neoprávneným využitím ich obsahu. Extrahované titulky sú prepisy video obsahu, čo je zrejmé porušenie smerníc YouTube.
Odhalenie Vyšetrovania a Záverov
Vyšetrovanie vykonané Proof News prinieslo na verejnosť informácie o tom, ako niektoré z najbohatších spoločností na svete využili materiály z tisícov videí na YouTube na trénovanie ich modelov AI, nepovažujúc pritom platformové predpisy. Prieskum odhalil, že titulky z 173 536 videí na YouTube, pochádzajúce z viac ako 48 000 kanálov, boli využité technologickými gigantmi ako Anthropic, Nvidia, Apple a Salesforce.
Sťahovanie bolo vykonané organizáciou EleutherAI, neziskovou organizáciou, ktorá pomáha vývojárom pri trénovaní jazykových modelov. Napriek ich vyhlásenému účelu poskytovať trénovacie zdroje pre malých vývojárov a akademikov bol tento dataset tiež prijatý hlavnými technologickými firmami, vrátane Applu.
Využitie Datasetu Pile
Podľa výskumu uvedeného v pracovnom dokumente vydanom EleutherAI je dataset, o ktorom je reč, súčasťou kompilácie známej ako Pile. Tieto datasety sú verejne dostupné pre každého na internete, pokiaľ majú potrebné zdroje a výpočtový výkon. Nie len technologickí giganti, ale aj akademici a vývojári mimo veľkých technologických firiem využili tieto datasety.
Spoločnosti ako Apple, Nvidia a Salesforce, ktoré sa chvália hodnoteniami v stovkách miliárd a biliónoch dolárov, detailne popisujú vo svojich výskumných prácach, ako využili Pile na účely trénovania AI. Správy naznačujú, že Apple použil Pile na trénovanie OpenELM, jazykového modelu spusteného v apríli, krátko pred odhalením nových schopností AI pre iPhony a MacBooky.
Ďalšie Dôsledky Neoprávneného Používania Obsahu pre Trénovanie AI
Zatiaľ čo pôvodné vyšetrovanie poukázalo na rozsiahle neoprávnenej extrakcii obsahu z YouTube pre trénovanie modelov AI, z tejto praxe vyplývajú ďalšie dôsledky. Využívanie titulkov z videí na YouTube technologickými gigantmi bez výslovného súhlasu tvorcov obsahu vyvoláva niekoľko dôležitých otázok, ktoré si zaslúžia preskúmanie.
Kľúčové Otázky:
1. Právne Dôsledky: Aké sú možné právne dôsledky pre technologické spoločnosti zapojené do neoprávnenej extrakcie obsahu z YouTube pre trénovanie AI?
Odpoveď: Spoločnosti sa môžu stretnúť so žalobami za porušenie autorských práv, náhradami škody a poškodením reputácie za porušenie duševného vlastníctva tvorcov obsahu bez dostatočnej autorizácie.
2. Etické Úvahy: Akým spôsobom sa neoprávnené používanie obsahu odráža na etických štandardoch týchto technologických gigantov?
Odpoveď: Nedostatok súhlasu a transparentnosti pri využívaní obsahu tretích strán na vývoj AI vyvoláva obavy o etické praktiky, práva na ochranu súkromia a spravodlivú kompenzáciu pre tvorcov.
3. Obavy o Ochrane Dát: Aké dôsledky má extrakcia titulkov z videí na YouTube pre ochranu údajov používateľov a bezpečnosť?
Odpoveď: Neoprávnené zbieranie obsahu z videí na trénovanie AI môže ohroziť súkromie používateľov, pretože osobné informácie zakomponované do titulkov by mohli byť zneužité alebo nesprávne manipulované.
Výzvy a Kontroverzie:
Kontroverzia okolo neoprávnenej extrakcie obsahu z YouTube pre trénovanie AI predstavuje niekoľko výziev a kontroverzií, ktoré vyžadujú pozornosť a riešenie.
Výhody:
1. Nákladovo Efektívne Trénovanie: Prístup k verejne dostupným datasetom ako Pile z platforiem ako YouTube môže znížiť náklady spojené s získavaním a anotáciou obrovských množstiev trénovacích dát.
2. Zlepšené Schopnosti AI: Využívaním rôznych zdrojov obsahu na trénovanie modelov AI môžu technologické giganti zlepšiť presnosť a všestrannosť svojich AI systémov pre budúce vývojové projekty.
Nevýhody:
1. Nedostatok Transparentnosti: Tajné extrahovanie video obsahu bez primeraného pripísania alebo súhlasu podkopáva transparentnosť a zodpovednosť v procesoch vývoja AI.
2. Porušenie Práv na Duševné Vlastníctvo: Neoprávnené používanie chráneného materiálu pre trénovanie AI vyvoláva obavy o práva na duševné vlastníctvo a spravodlivú kompenzáciu pre tvorcov obsahu.
Pre viac informácií o etike AI, ochrane údajov a predpisoch technológií, navštívte AoL News.