Les nouveaux défis des chatbots IA: une perspective innovante

Les chatbots d’intelligence artificielle (IA) et les générateurs d’images ont connu une montée en popularité ces dernières années, mais ils présentent également des failles et des biais. Ces outils sont connus pour stéréotyper les individus, propager des fausses informations, générer du contenu discriminatoire et fournir des réponses inexactes. Alors que ces problèmes ont été largement documentés, il existe toujours un manque de compréhension globale de leur ampleur et de leur gravité.

Un récent rapport d’associations industrielles et de la société civile visait à mettre en lumière les différentes façons dont les chatbots IA peuvent dysfonctionner. L’étude met en avant les résultats d’un concours soutenu par la Maison Blanche qui s’est tenu lors de la convention des hackers Def Con. Les participants ont tenté de manipuler huit principaux chatbots IA afin de générer des réponses problématiques, couvrant des domaines tels que la désinformation politique, les biais démographiques, les violations de la cybersécurité et les affirmations de « sentience » de l’IA.

Les conclusions révèlent que les chatbots IA sont généralement réticents à enfreindre leurs propres règles et lignes directrices, ce qui rend difficile de les piéger pour adopter un comportement inapproprié. Cependant, l’étude montre également qu’il est relativement facile de les amener à produire des informations inexactes. Les participants ont obtenu des taux de réussite élevés dans la génération de données mathématiques erronées (76%) et de désinformations géographiques (61%). De plus, les chatbots ont montré une propension à fournir des informations juridiques erronées lorsqu’ils étaient confrontés à des questions de la part d’avocats, avec un taux de réussite de 45%.

Le rapport met également en lumière la vulnérabilité des chatbots en matière de gestion d’informations sensibles. Les participants ont réussi à obtenir avec succès des numéros de carte de crédit cachés et à obtenir des autorisations administratives pour le réseau d’une entreprise fictive dans plus de la moitié des solutions soumises.

En revanche, les participants ont rencontré des difficultés en essayant de manipuler les chatbots pour excuser les violations des droits de l’homme ou affirmer l’infériorité de certains groupes. Ces tentatives ont eu des taux de réussite limités de 20% et 24%, respectivement. De plus, les soumissions visant à tester la « surcorrection » par les chatbots, notamment en attribuant des traits positifs aux groupes minoritaires tout en refusant de le faire pour les groupes majoritaires, ont obtenu un taux de réussite de 40%. Ces conclusions suggèrent que d’autres modèles d’IA, tels que Gemini de Google, peuvent également présenter des correctifs simplistes pour lutter contre les stéréotypes potentiellement nocifs.

De manière intéressante, le rapport révèle que la stratégie la plus efficace pour dérouter un chatbot n’est pas de le pirater, mais de partir d’une prémisse erronée. Des techniques connues, telles que demander au chatbot de se mettre dans la peau d’un jumeau maléfique ou d’une grand-mère bienveillante, se sont révélées inefficaces. Au contraire, poser une question contenant une affirmation ou une hypothèse incorrecte a conduit à des réponses plausibles mais inexactes. Cela met en lumière les limites des chatbots pour différencier le vrai du faux.

Les implications de ces constatations sont vastes. Elles appellent à un recentrage des entreprises d’IA, des critiques et des régulateurs sur les chatbots en examinant comment ils peuvent confirmer ou amplifier les biais et les idées fausses des utilisateurs. Comprendre ces dangers potentiels est crucial pour le développement et la mise en œuvre responsables des systèmes d’IA.

Alors que l’importance de l’évaluation des risques liés à l’IA ne cesse de croître, de nombreuses entreprises d’IA et régulateurs adoptent des approches de « red teaming ». Le red teaming consiste en des évaluations privées des systèmes en engageant des hackers pour identifier les vulnérabilités avant la mise en service du système. Le rapport suggère que des exercices de red teaming publics, comme l’événement Def Con, apportent une valeur ajoutée en intégrant des perspectives diverses issues du grand public. Ces exercices offrent une compréhension plus complète des défis posés par les systèmes d’IA.

Par ailleurs, une autre étude d’Anthropic met en lumière les vulnérabilités des modèles IA en matière de conversations longues. Alors que le piratage de l’invite a peut-être été abordé dans les derniers modèles d’IA, la capacité à engager des conversations prolongées présente une nouvelle forme d’exploitation appelée « many-shot jailbreaking ». Cela démontre que les mêmes caractéristiques qui rendent les systèmes d’IA utiles peuvent aussi les rendre potentiellement dangereux.

En conclusion, le rapport sur les vulnérabilités des chatbots IA offre des perspectives précieuses sur le paysage complexe des technologies de l’IA. Il souligne la nécessité de poursuivre la recherche, l’engagement du public et le développement responsable pour atténuer les risques associés à ces systèmes.

The source of the article is from the blog combopop.com.br