Искусственный интеллект и зачем ему данные: новые перспективы развития

Технологические компании продолжают искать способы совершенствования своих моделей искусственного интеллекта (ИИ), и данные играют ключевую роль в этом процессе. В одном из недавних отчетов OpenAI раскрыла использование более миллиона часов видеороликов с YouTube для обучения своей передовой модели языка GPT-4.

Обучение таких мощных моделей ИИ требует огромного объема данных, и OpenAI обратилась к обширной библиотеке видеороликов YouTube для этой цели. С помощью инструмента распознавания речи под названием Whisper модель GPT-4 транскрибировала содержимое видео, предоставляя обширный набор данных для обучения.

Однако такой подход вызвал опасения относительно соответствия политике YouTube. Google, владелец YouTube, строго ограничивает использование своих видеороликов для независимых приложений. Процесс трансляции видеоданных вызвал домыслы о возможных нарушениях авторских прав.

На вопрос о использовании данных YouTube OpenAI, генеральный директор YouTube Нил Мохан выразил неуверенность, заявив, что не имеет информации об таком использовании. Однако он признал, что использование видеороликов YouTube без соответствующего разрешения может вызвать серьезные проблемы.

Следует отметить, что OpenAI — не единственная компания, исследующая пути получения дополнительных данных для обучения ИИ. Сам Google тоже транскрибирует контент YouTube в соответствии с соглашениями с создателями. Компания Марка Цукерберга Meta также вызвала обсуждения о возможном приобретении библиотеки книг у Simon & Schuster.

Чем обусловлена эта одержимость данными?

Эффективность и возможности моделей ИИ напрямую коррелируют с объемом и качеством данных, на которых они обучаются. Спрос на высококачественные данные настолько велик, что эксперты предвидят потенциальное исчерпание доступных данных в Интернете к 2026 году, что иллюстрирует гонку за накоплением обширной информации.

ЧаВО

Что такое GPT-4?
GPT-4 означает «Generative Pre-trained Transformer 4» и является языковой моделью, разработанной OpenAI. Он использует техники глубокого обучения для генерации текста, похожего на человеческий, на основе предоставленного контекста.

Что такое распознавание речи?
Распознавание речи — это технология, преобразующая устную речь в письменный текст. В случае Whisper, используемого OpenAI GPT-4, этот инструмент транскрибировал содержимое видеороликов YouTube.

Как данные влияют на модели ИИ?
Данные критически важны для обучения моделей ИИ. Объем и качество данных напрямую влияют на производительность, точность и возможности модели ИИ. Большой объем данных позволяет делать более точные прогнозы и глубже понимать сложные закономерности.

Возникают ли авторские вопросы при транскрибировании видеороликов YouTube?
Да, транскрибирование видеороликов YouTube без соответствующего разрешения может потенциально нарушить авторские права. YouTube ограничивает использование своих видеороликов в независимых приложениях, и несанкционированное транскрибирование может нарушить права создателей.

Как компании по искусственному интеллекту получают данные?
Компании по искусственному интеллекту используют различные источники для получения данных. Это могут быть общедоступные наборы данных, партнерства с поставщиками данных или соглашения с создателями контента для доступа к их материалам в обучающих целях.

В условиях усиливающейся гонки за данными компании, такие как OpenAI и Google, продолжают исследовать инновационные способы эффективного обучения своих моделей ИИ. В то время как возникли тревоги о соблюдении законности и авторских прав, жажда развития ИИ, основанного на данных, сохраняется.

Источники:

Hindustan Times

The source of the article is from the blog elektrischnederland.nl