O Nových Modelových AI Trénováno na Transkripcích z YouTube Vznikají Obavy ohledně Autorských Práv

V nedávném vývoji se OpenAI a Google dostaly do popředí pozornosti kvůli trénování svých modelů AI pomocí transkriptů videí z YouTube, potenciálně porušující autorská práva tvůrců. Zpráva z New York Times osvětluje postupy těchto technologických gigantů a jejich snahy maximalizovat datový přísun pro své systémy AI. Zatímco společnosti využily různé techniky k získání velkého objemu dat, byly vyvýšeny otázky ohledně legálnosti jejich metod.

OpenAI prý použila svůj nástroj pro rozpoznávání řeči Whisper k přepisu přes milion hodin videí z YouTube, které pak byly využity k trénování jejich nejnovějšího generátoru textu na video, Soru, podle zprávy NYT. To následuje dřívější tvrzení The Information, že OpenAI využila videa z YouTube a podcasty k trénování svých AI systémů. Je zajímavé, že prezident OpenAI, Greg Brockman, měl být podle zprávy pravděpodobně zapojen do tohoto projektu.

Obavy byly také vyjádřeny ohledně postupů Googlu, neboť neoprávněné scrapování nebo stahování obsahu z YouTube je zakázáno. Mluvčí Googlu, Matt Bryant, objasnil, že společnost nebyla informována o použití videí z YouTube OpenAI a uvedl, že takové akce neschvalují. Nicméně zpráva NYT naznačuje, že byli jedinci v Google, kteří věděli o praktikách OpenAI, ale nejměnily žádná opatření, možná kvůli Googlovým vlastním použitím videí z YouTube pro trénování jejich modelů AI.

Je důležité poznamenat, že Google tvrdí, že používají pouze videa od tvůrců, kteří souhlasili s účastí v jejich experimentálním programu. Engadget kontaktoval jak Google, tak OpenAI pro jejich komentáře k této záležitosti.

Často kladené otázky

1. Porušují OpenAI a Google autorská práva tím, že trénují své modely AI na transkripcích z YouTube?
Existují obavy, že OpenAI a Google využívají videa z YouTube k trénování svých modelů AI a tím porušují autorská práva tvůrců. Zpráva New York Times poukazuje na tyto potenciální porušení, indikujíce, že neoprávněné scrapování nebo stahování obsahu z YouTube není povoleno. Google však tvrdí, že používají videa pouze od tvůrců, kteří souhlasili s účastí v experimentálním programu.

2. Jaký přístup zvolila OpenAI při trénování svého modelu AI?
OpenAI údajně využila svůj nástroj pro rozpoznávání řeči, Whisper, k přepsání více než milionu hodin videí z YouTube, které byly následně použity k trénování jejich generátoru textů na video, Sora. Tento přístup měl za cíl využít obrovského množství dat pro zlepšení výkonu modelu AI.

3. Uznal Google, že OpenAI využil videa z YouTube k trénování?
Google uvedl, že nebyli informováni o tom, že OpenAI využilo videa z YouTube k trénování jejich modelů AI a objasnil, že nepodporují neoprávněné scrapování nebo stahování obsahu. Nicméně zpráva naznačuje, že někteří jedinci v Google byli informováni o praktikách OpenAI, ale nepodnikli žádné kroky, pravděpodobně kvůli vlastnímu Googlevě použití videí z YouTube k trénování svých modelů AI.

4. Jak rozšířil Google svou politiku ochrany osobních údajů, jak je uvedeno ve zprávě?
Zpráva NYT odhaluje, že Google v červnu 2022 aktualizoval svou politiku ochrany osobních údajů, aby zahrnul širší škálu veřejně dostupných obsahů, jako jsou Google Docs a Google Sheets, pro trénování svých modelů AI a produktů. Nicméně Bryant zdůraznil, že to je provedeno pouze se z explicitním souhlasem uživatelů, kteří se přihlásí k experimentálním funkcím Googlu.

5. Poskytli OpenAI a Google nějaká oficiální prohlášení k těmto obviněním?
Engadget konzultoval s oběma společnostmi a jejich komentáři k této záležitosti nejsou dosud oficiální. Zatím nebyla žádná oficiální prohlášení od žádné ze společností ohledně obvinění uvedených ve zprávě New York Times.

Kromě informací poskytnutých v článku zde jsou některé podrobnosti o průmyslu, predikcích trhu a problémech souvisejících s odvětvím AI a trénováním modelů za využití transkripcí z YouTube:

Průmysl AI zažívá v posledních letech významný růst, přičemž se očekává, že velikost trhu dosáhne 190,61 miliardy USD do roku 2025, podle zprávy od MarketsandMarkets. Tento růst je poháněn rostoucím poptávkou po řešeních poháněných AI v různých odvětvích, jako jsou zdravotnictví, finance, maloobchod a výroba.

Jedním z klíčových výzev v odvětví AI je potřeba velkého objemu dat vysoké kvality k efektivnímu trénování modelů AI. Společnosti jako OpenAI a Google neustále zkoumají různé zdroje dat, včetně veřejně dostupného obsahu jako jsou videa z YouTube, k zlepšení výkonu svých AI systémů.

Nicméně použití videí z YouTube k trénování modelů AI vyvolává obavy ohledně porušení autorských práv. Tvůrci mají exkluzivní práva na svůj obsah, včetně práva na reprodukci a distribuci. Neoprávněné scrapování nebo stahování videí z YouTube bez souhlasu tvůrců může potenciálně porušit tato práva.

Problém porušování autorských práv v odvětví AI není nový. V minulosti byly společnosti žalovány za používání chráněného materiálu ve svých trénovacích datech pro AI. Například v roce 2019 podal fotograf žalobu proti velké společnosti AI za použití jeho chráněných obrázků bez souhlasu.

Aby byly tyto obavy ohledně autorských práv vyřešeny, společnosti jako Google zavedly opatření, aby zajistily, že používají pouze videa od tvůrců, kteří souhlasili s účastí v jejich experimentálních programech. To je provedeno s ohledem na dodržování autorských práv a respektování práv tvůrců.

Nicméně použití videí z YouTube k trénování modelů AI není jediný kontroverzní postup v odvětví. Další problémy zahrnují sklon v algoritmech AI, obavy o ochranu dat a etické dopady rozhodování AI.

Vzhledem k tomu, že odvětví AI pokračuje ve vývoji, je klíčové, aby společnosti navigovaly těmito právními a etickými zvažováními, aby zajistily odpovědné a zákonné použití dat při trénování modelů AI.

Pro více informací o odvětví AI a souvisejících otázkách můžete navštívit následující webové stránky:

– MarketsandMarkets: Poskytuje výzkumné zprávy trhu a analýzy odvětví pro různá odvětví, včetně

The source of the article is from the blog girabetim.com.br