Изкуствения интелект стъпва към преодоляване на предизвикателствата при снабдяването с висококачествени обучителни данни

Изкуствените интелигентни компании се сблъскват със сериозно предизвикателство при придобиването на висококачествени обучителни данни, показва последно доклад. Това предизвикателство е подтикнало тези компании да проучват различни методи за преодоляване на пречката, дори ако това означава да „задълбаят“ в мъгливи територии на авторското право в областта на изкуствения интелект.

Една от водещите компании, OpenAI, се озова в отчаяно положение поради нуждата си от обучителни данни и разработи модела си за аудио транскрипция Whisper като решение. Този модел транскрибира над милион часа видеоклипове от YouTube, които бяха използвани за обучение на GPT-4, най-новият и най-развит модел за език на OpenAI. Въпреки че OpenAI призна възможните правни последици от този подход, тя смяташе, че той попада в областта на справедливото използване. Забележително е, че президентът на OpenAI, Грег Брокман, лично надзираваше събирането на видеоклиповете, използвани за обучение.

В отговор на тези твърдения, представителят на OpenAI, Линдзи Хелд, заяви, че компанията съставя „уникални“ набори от данни за всеки от своите модели, за да разшири техните познания за света. Хелд обясни, че OpenAI използва различни източници на данни, включително обществено достъпни данни и непублични партньорства, като също така проучва генерирането на синтетични данни. Компанията изчерпа своите налични запаси от полезни данни през 2021 г. и започна разглеждането на транскрибиране на видеоклипове от YouTube, подкастове и аудиокниги, наред с други източници като компютърен код от Github, бази данни на шахматни ходове и образователно съдържание от Quizlet.

Google, още един голем играч в областта на изкуствения интелект, също е изправен пред предизвикателства при придобиването на обучителни данни. Мат Брайънт, представител на компанията, отговори на съобщенията, че OpenAI е използвала съдържание от YouTube за обучителни цели. Брайънт подчерта, че неразрешеното сканиране или изтегляне на съдържание от YouTube е стриктно забранено съгласно техните условия за обслужване. Google призна, че обучава своите модели по избрани съдържание от YouTube в съответствие със сключените споразумения с творците на съдържанието в YouTube. Освен това, компани
FAQ

1. Защо изкуствените интелигентни компании се борят да придобият висококачествени обучителни данни?
Изкуствените интелигентни компании се нуждаят от висококачествени обучителни данни, за да подобрят своите модели. Въпреки това наличието на такива данни става все по-скъпо, като поставя сериозен проблем за тези компании.

2. Как OpenAI се справя с проблема на липсата на данни?
OpenAI се е обърнала към различни методи, за да се справи с липсата на обучителни данни. Един от подходите включваше разработването на модел за аудио транскрипция на име Whisper, който транскрибираше милиони часове материал от YouTube, за да обучи своя модел за език. Въпреки това, този метод пораждаше възможни правни проблеми.

3. Как реагира Google на твърденията относно неразрешеното използване на съдържание от YouTube?
Google стриктно забранява неразрешеното сканиране или изтегляне на съдържание от YouTube, както е определено в условията на услугата им. Въпреки това компанията признава, че обучава своите модели по избрани съдържание от YouTube, съгласно споразуменията, постигнати с творците на съдържанието.

4. Какви алтернативни решения изследват изкуствените интелигентни компании, за да преодолеят липсата на данни?
Изкуствените интелигентни компании разглеждат различни стратегии, за да се справят с предизвикателството на липсата на данни. Някои потенциални решения включват обучаването на модели по синтетични данни, генерирани от техните собствени модели или прилагане на техники на учебен план, където моделите се подхранват с висококачествени данни по подреден начин за да разширят своето разбиране.

Източници:

The New York Times
The Wall Street Journal
The Verge
Getty Images

От [Вашето Име], технологичен ентусиаст и писател с страст към новите технологии.

The source of the article is from the blog yanoticias.es