OpenAI представляет GPT-4o, мультимодальный AI, имитирующий человеческие взаимодействия

Сан-Франциско представляет продвинутый ИИ с улучшенными функциями естественного общения

На недавнем мероприятии, проведенном в Сан-Франциско, была представлена инновационная версия языковой модели, оснащенная генеративным искусственным интеллектом, расширяющим границы в сторону более естественного взаимодействия человека с компьютером. Эта модель способна понимать и генерировать ответы на текстовые, аудио- и визуальные данные.

Доработанные ответы на голосовые команды и человекоподобное взаимодействие

Значительная часть презентации была посвящена продвинутым голосовым возможностям новой модели ИИ. В отличие от предыдущих версий GPT, на которые могло уйти несколько секунд на ответ, время ответа новой версии сократилось до примерно 320 миллисекунд. Это сравнимо с реакционным временем человека, что делает разговоры с ИИ более плавными и естественными. Во время интерактивных демонстраций с ИИ разработчики часто перебивали его, демонстрируя, что качество ответов ИИ оставалось неизменным.

Улучшенные способности восприятия и перевода

Теперь ИИ обладает новыми функциями, такими как пение, динамическая модуляция голоса, распознавание эмоций и интерпретация визуальных данных. На демонстрации модель показала способность анализировать рукописное уравнение через камеру смартфона, предлагая руководство и исправления, как на живом занятии с репетитором.

На другом примере была продемонстрирована способность ИИ как переводчика. Мира Мурати из технической команды вела разговор, говоря по-итальянски, и разработчик отвечал по-английски. ИИ мгновенно переводил диалог в реальном времени.

Интеграция ChatGPT в macOS и будущее естественное взаимодействие

Также было представлено новое приложение ChatGPT для macOS, позволяющее пользователям взаимодействовать с голосовым помощником и показывать информацию на экране. Модель может расшифровывать код и предоставлять инсайты, демонстрируя свою полезность за пределами только программистских задач.

OpenAI уже начала выпуск приложения для подписанных пользователей, а в скором времени ожидается более широкое распространение. В то время как версия для Windows планируется на ближайшее время, все пользователи в конечном итоге смогут наслаждаться обновлениями в разговоре модели GPT-4o бесплатно, а премиум-подписчики получат дополнительные функции. Возможности голоса, на данный момент доступные только для текста и графики, постепенно станут доступны широкому кругу пользователей.

Первоначальная обратная связь от пользователей о возможностях GPT-4o описывает их как «невероятные», подчеркивая эффективную визуализацию данных и интерпретацию графиков. В то время как полные функции голоса еще ожидают выпуска, данная передовая модель готова переопределить наши взаимодействия с технологией.

Ключевые вопросы и ответы:

В: Что такое GPT-4o и в чем его отличие от предыдущих моделей?
О: GPT-4o — это мультимодальный ИИ, разработанный OpenAI, который был улучшен для понимания и генерации ответов, включающих текстовые, аудио- и визуальные данные. Он улучшает предыдущие модели за счет ускоренного времени ответа и расширенных функций, таких как распознавание эмоций, интерпретация визуальных данных и динамическая модуляция голоса.

В: В какие приложения OpenAI интегрировала GPT-4o?
О: OpenAI интегрировала GPT-4o в приложение для macOS, которое позволяет взаимодействовать с голосовым помощником и визуализировать данные на экране. Также запланирована версия для Windows и полные функции голоса для будущих выпусков.

В: Какие области применения могут быть для GPT-4o?
О: GPT-4o может быть полезен в областях, таких как образование, где он может анализировать и исправлять рукописные уравнения в реальном времени. Кроме того, его способности к мгновенному переводу языка могут помочь в общении через языковые барьеры.

Проблемы и споры:

Одна из ключевых проблем, связанных с продвинутыми моделями ИИ, такими как GPT-4o, касается этических вопросов в области конфиденциальности и использования данных. Учитывая мультимодальные возможности, которые включают обработку личных данных, таких как голос и изображения, обеспечение согласия пользователей и безопасной обработки данных имеет критическое значение.

Другим спорным вопросом может быть воздействие такого продвинутого ИИ на рынок труда. Поскольку ИИ становится более способным ведения человекоподобных взаимодействий, возможны опасения относительно устранения рабочих мест, особенно в областях обслуживания клиентов и других областях с большим объемом взаимодействия.

Преимущества:

1. Улучшенное время ответа: Почти мгновенные ответы делают интерактивное общение с ИИ более практичным и похожим на человеческое.
2. Расширенные мультимодальные возможности: Способность обрабатывать и реагировать на текстовые, аудио- и визуальные данные расширяет спектр применения ИИ.
3. Перевод языка: Возможности мгновенного перевода облегчают международное общение и сотрудничество.
4. Улучшения в доступности: Улучшенное восприятие может помочь пользователям с нарушениями зрения или слуха.

Недостатки:

1. Опасения конфиденциальности данных: Обработка чувствительных мультимодальных данных требует строгих защиты конфиденциальности.
2. Воздействие на рынок труда: Расширенные возможности ИИ могут привести к нарушениям рабочего процесса в различных отраслях.
3. Зависимость и переоснование: Поскольку ИИ становится более интегрированным в повседневные задачи, существует потенциал к переоснованию, возможно снижающий навыки человека.

Если вы заинтересованы в изучении больше о OpenAI и его инициативах, вы можете посетить их основной веб-сайт по этой ссылке.

[встраивание]https://www.youtube.com/embed/c-AeTnlMn0I[/встраивание]

The source of the article is from the blog mgz.com.tw