Nové metody v tréninku umělé inteligence vyvolávají etickou debatu.

Důležité šetření portálu Technology News odhalilo kontroverzní odhalení v oblasti vývoje umělé inteligence. Průmysloví giganti využívali své modely AI, které byly trénovány na pečlivě vybraném datasetu obsahujícím více než 173 000 videí z YouTube bez souhlasu.

Dataset, který zahájila nezisková organizace EleutherAI, obsahoval útržky z videí z YouTube získaných z více než 48 000 kanálů, přičemž hráči jako Apple, NVIDIA a Anthropic patřili mezi ty, kteří z něj těžili. To osvětluje nepříjemnou skutečnost, že technologie AI je silně závislá na datech získaných od tvůrců obsahu bez jejich souhlasu nebo odměny.

Na rozdíl od původního obsahu tento dataset neobsahuje žádné skutečné videozáznamy, nýbrž textová data od špičkových tvůrců platformy, jako je Marques Brownlee a MrBeast, vedle hlavních zpravodajských vydavatelů jako The New York Times, BBC a ABC News. Přepisy videí z Engadgetu také přispívají k tomuto datasetu, pronikajíce do kontroverzního etického dilematu v krajině AI.

Apple prý získal data AI z různých zdrojů, včetně scrapování dat z videí na YouTube, což je praxe, která vyvolává etické obavy. Mezi tím vším jsou firmy jako Apple a NVIDIA tiché na žádosti o komentář, zdůrazňujíce tak nedostatek transparentnosti ohledně dat, která jsou použita pro trénink modelů AI.

YouTube jako obrovská nádrž s videy celosvětově stojí jako žádaný dobytek pro trénování modelů umělé inteligence, a to nejen pro textová data, ale i pro hlas, video a obrázky. Etické debaty ohledně používání dat z YouTube pro trénink modelů AI pokračují v eskalaci, zdůrazňujíce důležitost transparentnosti a souhlasu v tomto se vyvíjejícím technologickém prostředí.

[…]