Nový Prístup k Tréningovým Dátam Pre Spoločnosti AI

Umelá inteligencia (AI) čelí významnej výzve získavania vysokokvalitných tréningových dát podľa nedávneho správy. Tento problém tieto spoločnosti motivoval k preskúmaniu rôznych metód na prekonanie prekážky, aj keď to znamená preniknutie do temných oblastí autorského práva AI.

Jedna významná spoločnosť, OpenAI, sa ocitla v naliehavom potrebe tréningových dát a vyvinula svoj model pre transkripciu zvuku s názvom Whisper ako riešenie. Tento model transkriboval viac ako milión hodín videí z YouTube, ktoré potom slúžili na tréning GPT-4, najpokročilejšieho jazykového modelu OpenAI. Zatiaľ čo OpenAI uznalo možné právne dôsledky tohto prístupu, verilo, že to spadá pod spravodlivé využitie. Je dôležité, že prezident OpenAI, Greg Brockman, osobne dozeral na získavanie videí použitých na tréning.

Vo svojom vyjadrení na tieto obvinenia hovorkyňa OpenAI, Lindsay Heldová, uviedla, že spoločnosť pripravuje „jedinečné“ datasety pre každý z jej modelov na zlepšenie ich pochopenia sveta. Heldová vysvetlila, že OpenAI používa rôzne zdroje dát, vrátane verejne dostupných dát a neverejných partnerstiev, pričom skúma aj generovanie syntetických dát. Spoločnosť vyčerpala svoje existujúce zdroje užitočných dát v roku 2021 a začala zvažovať transkripciu videí z YouTube, podcastov a audiokníh, spolu s inými zdrojmi ako počítačový kód z Githubu, databázy pohybov šachu a vzdelávacie obsahy z Quizletu.

Google, ďalší významný hráč v oblasti AI, sa tiež stretol s problémami pri získavaní tréningových dát. Hovorca spoločnosti, Matt Bryant, reagoval na správy, že OpenAI používal obsah z YouTube na účely tréningu. Bryant zdôraznil, že neoprávnené sc

**Často kladené otázky**

1. Prečo sa spoločnosti AI snažia získať vysokokvalitné tréningové dáta?
Spoločnosti AI silno závisia na vysokokvalitných tréningových dátach na zlepšenie svojich modelov. Avšak dostupnosť takýchto dát sa stáva čoraz vzácnejšou, čo predstavuje významnú výzvu pre tieto spoločnosti.

2. Ako rieši OpenAI problém nedostatku dát?
OpenAI sa uchyľuje k rôznym spôsobom, ako riešiť nedostatok tréningových dát. Jedným prístupom bolo vyvinutie modelu pre transkripciu zvuku s názvom Whisper, ktorý transkriboval milióny hodín videí z YouTube na tréning svojho jazykového modelu. Tento spôsob však vzbudil možné právne obavy.

3. Ako reaguje Google na obvinenia týkajúce sa neoprávnenej použite videí z YouTube?
Google prísne zakazuje neoprávnené získavanie videí z YouTube, ako je uvedené v ich podmienkach služby. Spoločnosť priznala, že trénuje svoje modely na vybranom obsahu z YouTube v súlade s dohodami uzavretými s tvorcami YouTube. Okrem toho spoločnosť vykonala úpravy svojich zásad ochrany súkromia, aby rozšírila spôsoby, akými môže využívať dáta spotrebiteľov, napríklad ich zapojenie do kancelárskych nástrojov ako Google Docs.

4. Ako skúmajú spoločnosti AI alternatívne riešenia na prekonávanie nedostatku dát?
Spoločnosti AI zvažujú rôzne stratégie na riešenie výzvy nedostatku dát. Niektoré potenciálne riešenia zahŕňajú trénovanie modelov na syntetických dátach generovaných vlastnými modelmi alebo použitie techník učebného plánu, kde sú modely kŕmené vysokokvalitnými dátami v usporiadaný spôsob pre zlepšenie ich pochopenia.

Zdroje:

The New York Times
The Wall Street Journal
The Verge
Getty Images

Autor: [Váš Názov], technologický nadšenec a spisovateľ so záľubou v nových technológiách.

The source of the article is from the blog toumai.es

Web Story