OpenAI dévoile GPT-4o avec interaction vocale en temps réel

OpenAI présente une intelligence artificielle de nouvelle génération avec des capacités conversationnelles en temps réel

OpenAI a annoncé le lancement de leur dernier modèle d’IA, nommé GPT-4o, qui promet de repousser les limites de l’industrie de l’IA. Franchissant les limites des modèles précédents, GPT-4o se vante de révolutionnaires fonctionnalités de conversation vocale et de la capacité à interagir de manière transparente avec le texte et les images. Ce progrès dans la technologie de l’IA représente la volonté d’OpenAI de rester en tête du marché dans la course effrénée des nouvelles technologies émergentes.

Les nouvelles capacités auditives de GPT-4o permettront aux utilisateurs de dialoguer avec ChatGPT dans une conversation parlée, recevant des réponses immédiates et ayant la possibilité d’interrompre l’IA, reflétant ainsi le flux naturel de l’interaction humaine. Ces fonctionnalités ont été présentées lors d’un événement en direct par les chercheurs d’OpenAI et représentent un saut significatif vers la réalisation d’expériences conversationnelles naturelles avec les machines.

Soutenu par un important soutien financier de Microsoft, OpenAI s’engage à élargir la base d’utilisateurs de ChatGPT, leur chatbot avancé réputé pour générer un texte proche de celui d’un humain et du code logiciel complexe. Lors d’une démonstration en direct, ChatGPT a utilisé ses capacités visionnaires et vocales pour dialoguer avec un chercheur en résolvant une équation mathématique sur papier.

Lors d’une autre démonstration, l’équipe a mis en avant la capacité du modèle à effectuer des traductions linguistiques en temps réel. Les démonstrations semblaient presque tirées d’une séquence de science-fiction, comprenant des échanges humoristiques, rappelant le film de Spike Jonze en 2013, « Her ».

La directrice de la technologie, Mira Murati, a déclaré lors de l’événement que le nouveau modèle GPT-4o sera accessible gratuitement, privilégiant l’efficacité par rapport aux versions précédentes. Les utilisateurs payants auront des contraintes de capacité plus importantes que les utilisateurs gratuits, a-t-elle ajouté. L’entreprise prévoit de publier GPT-4o sur ChatGPT dans les semaines à venir.

En plus, Murati a informé Reuters que la version gratuite de ChatGPT inclut désormais une fonction « aperçu » affichant des informations en direct provenant du web. Elle a également confirmé qu’OpenAI n’a aucun plan de monétisation des utilisateurs gratuits par le biais de la publicité.

À noter que ChatGPT est devenu la plus rapide application à atteindre 100 millions d’utilisateurs actifs mensuels après son lancement à la fin de l’année 2022, et le trafic web vers le site de ChatGPT connaît un regain comme en mai 2023. La mise à jour d’OpenAI survient un jour avant la conférence annuelle des développeurs d’Alphabet, Google, annonçant une semaine intense pour les avancées en matière d’IA.

Questions clés et réponses :
– Qu’est-ce que GPT-4o ?
GPT-4o est le dernier modèle d’IA dévoilé par OpenAI, offrant la capacité d’interaction vocale en temps réel en plus du traitement du texte et des images, dans le but de fournir des expériences conversationnelles plus réalistes.

– Quelles sont les nouvelles capacités de GPT-4o ?
GPT-4o introduit des capacités auditives en temps réel qui permettent aux utilisateurs d’engager des conversations parlées avec l’IA, en recevant des réponses immédiates et la possibilité d’interrompre, similaire à l’interaction humaine.

– Comment OpenAI prévoit-elle de rendre GPT-4o disponible aux utilisateurs ?
La CTO d’OpenAI a mentionné que le nouveau modèle sera accessible gratuitement, avec des contraintes de capacité plus importantes pour les utilisateurs payants que pour les utilisateurs gratuits, et qu’il sera déployé sur ChatGPT dans les semaines à venir.

– Comment GPT-4o se compare-t-il aux modèles précédents ?
Bien que les détails ne soient pas précisés dans l’article, généralement, les nouveaux modèles comme GPT-4o offrent des améliorations en termes de capacités de traitement, de compréhension du contexte, et de fourniture d’interactions précises et pertinentes par rapport à leurs prédécesseurs.

Défis et controverses clés :
– Vie privée des utilisateurs et sécurité des données : Avec des capacités d’interaction vocale accrues, garantir la vie privée des utilisateurs et la sécurité des conversations devient plus complexe et crucial.

– Accès et équité : Malgré la version gratuite, il peut y avoir des inquiétudes concernant l’équité en termes d’accès à la technologie et la possible perpétuation de la fracture numérique.

– Utilisation éthique et désinformation : La capacité de l’IA à générer un texte proche de celui d’un humain peut être détournée pour propager de fausses informations ou créer du contenu trompeur.

– Impact sur l’emploi : La mise en place d’une IA avancée peut entraîner un déplacement de l’emploi dans certains secteurs, soulevant des questions sur l’avenir du travail.

Avantages et inconvénients :
Avantages :
– Accessibilité améliorée : L’interaction vocale en temps réel peut considérablement améliorer l’accessibilité pour les personnes en situation de handicap ou celles qui ne maîtrisent pas bien la frappe.
– Efficacité : Le système peut fournir des retours immédiats et un support pour diverses tâches, favorisant l’efficacité dans les environnements personnels et professionnels.
– Service client avancé : GPT-4o peut améliorer les expériences de service client en fournissant des réponses rapides et précises de manière conversationnelle.

Inconvénients :
– Dépendance : Une dépendance accrue à l’IA pour les tâches peut entraîner une réduction de la capacité humaine à la réflexion critique et à la résolution de problèmes.
– Défis techniques : L’interaction vocale en temps réel nécessite une infrastructure robuste et peut rencontrer des problèmes tels que la précision de la reconnaissance vocale, en particulier dans des environnements bruyants ou avec des accents divers.
– Préoccupations éthiques : Les avancées dans l’interaction vocale de l’IA peuvent entraîner des abus potentiels, tels que la création de deepfakes ou l’escroquerie de personnes.

Voici un lien associé vers le domaine principal d’OpenAI pour plus d’informations sur leur travail en intelligence artificielle :
OpenAI.

The source of the article is from the blog scimag.news