La IA générative de Microsoft montre des réponses non précises, selon un enregistrement audio divulgué

Un enregistrement audio divulgué d’une présentation interne a mis en lumière l’outil d’IA générative de Microsoft, Security Copilot, et ses difficultés à fournir des réponses précises. La présentation portait sur les résultats des tests de « chasseur de menaces », où l’IA analysait un journal de sécurité Windows à la recherche d’activités potentiellement malveillantes. Selon un chercheur de Microsoft, l’outil produisait fréquemment des réponses incorrectes, ce qui rendait difficile l’obtention d’informations fiables. Pour présenter les capacités de l’outil, Microsoft devait sélectionner des exemples qui semblaient précis, car l’IA générait des réponses différentes pour la même question en raison de sa nature stochastique.

Security Copilot fonctionne de manière similaire à un chatbot, fournissant des réponses dans le style d’un représentant du service client. Il repose sur le modèle de langue GPT-4 d’OpenAI, qui alimente également d’autres applications d’IA générative de Microsoft comme l’assistant de recherche Bing. L’enregistrement audio suggère que Microsoft avait un accès précoce à GPT-4 et que les démonstrations étaient des premières explorations de son potentiel.

Cependant, les chercheurs ont révélé que l’IA produisait fréquemment des réponses incorrectes lors de ses premières itérations. Le phénomène d’hallucination, où l’IA génère des réponses sans lien avec la requête, était un défi majeur. Microsoft a tenté de résoudre ce problème en enracinant l’IA avec des données réelles, mais pour Security Copilot, le modèle de langue GPT-4 utilisé n’était pas spécifiquement entraîné sur des données de cybersécurité. Il reposait plutôt sur son vaste ensemble de données générales.

Il n’est pas clair si Microsoft a présenté ces exemples sélectionnés aux gouvernements et aux clients potentiels, ou si l’entreprise a été transparente sur le processus de sélection. Microsoft a déclaré que la technologie discutée lors de la réunion précédait Security Copilot et qu’elle avait été testée sur des simulations créées à partir d’ensembles de données publics, sans utilisation de données clients.

Cette fuite pose des questions sur la fiabilité et l’exactitude des outils d’IA générative, en particulier dans des domaines critiques tels que la cybersécurité. Des efforts de recherche et de développement supplémentaires sont nécessaires pour éliminer les hallucinations et améliorer les performances de ces systèmes d’IA.

The source of the article is from the blog macnifico.pt