Problémy umělé inteligence při získávání kvalitních tréninkových dat

Společnosti s umělou inteligencí (AI) čelí značné výzvě při získávání vysoce kvalitních tréninkových dat, jak uvádí nedávná zpráva. Tento problém vedl tyto společnosti k průzkumu různých metod, jak překonat překážku, i když to znamená zabývat se zapeklitými oblastmi autorského práva AI.

Jedna významná společnost, OpenAI, se ocitla v zoufalé potřebě tréninkových dat a vyvinula svůj model transkripce zvuku Whisper jako řešení. Tento model transkriboval přes milion hodin videí na YouTube, která byla použita k tréninku GPT-4, nejvyspělejšího jazykového modelu OpenAI. OpenAI uznala potenciální právní důsledky tohoto přístupu, ale věřila, že spadá pod spravedlivé užití. Zejména prezident OpenAI, Greg Brockman, osobně dohlížel na sbírání videí použitých k tréninku.

Reagujíc na tyto tvrzení, mluvčí OpenAI, Lindsay Held, uvedla, že společnost kurátuje „unikátní“ sady dat pro každý svůj model k zlepšení jeho porozumění světu. Held vysvětlila, že OpenAI využívá různé zdroje dat, včetně veřejně dostupných dat a neveřejných partnerství, a zkoumá také generování syntetických dat. Společnost vyčerpala své stávající zásoby užitečných dat v roce 2021 a začala uvažovat o transkripci videí na YouTube, podcastů a audioknih, spolu s dalšími zdroji, jako je počítačový kód z Githubu, databáze tahů v šachu a vzdělávací obsah z Quizletu.

Google, další velký hráč na poli umělé inteligence, se také potýká s obtížemi při získávání tréninkových dat. Mluvčí společnosti, Matt Bryant, reagoval na zprávy, že OpenAI používala obsah z YouTube pro účely tréninku. Bryant zdůraznil, že neoprávněný scraping nebo stahování obsahu z YouTube je přísně zakázáno podle jejich podmínek služby. Google uznal trénink svých modelů na vybraném obsahu z YouTube v souladu s dohodami uzavřenými s tvůrci na YouTube. Kromě toho společnost provedla úpravy své zásady ochrany soukromí, aby rozšířila způsoby využití osobních údajů spotřebitelů, například jejich začlenění do kancelářských nástrojů jako Google Docs.

Meta, dříve známá jako Facebook, se také setkala s podobnými překážkami při získávání vysoce kvalitních tréninkových dat. Záznamy získané deníkem The New York Times odhalily diskuse v týmu AI v Meta o nepovoleném používání chráněných prací. Meta zkoumala různé strategie, jak dohonit OpenAI, včetně možnosti zakoupit licence na knihy nebo dokonce získat velké nakladatelství jako celek. Změny týkající se ochrany soukromí provedené Meta jako reakce na skandál s Cambridge Analytica také omezily její schopnost využívat údaje spotřebitelů.

Společnosti s umělou inteligencí, včetně Google, OpenAI a dalších, se potýkají s klesající dostupností tréninkových dat pro své modely, které silně spoléhají na objem dat pro zlepšení. Rychlá spotřeba nového obsahu může v roce 2028 překonat schopnost získávat čerstvá tréninková data. S ohledem na tuto výzvu zmiňované v nedávných zprávách jsou možné řešení, jako je trénování modelů na syntetických datech generovaných vlastními modely nebo použití techniky curriculum learning. Nicméně, účinnost těchto přístupů zatím nebyla prokázána.

Často kladené otázky

The source of the article is from the blog bitperfect.pe

Privacy policy
Contact