Renforcer la sécurité des chatbots AI avec des boucliers prompts

Dans le monde des chatbots AI, Microsoft prend une position ferme contre les utilisations malveillantes. Aujourd’hui, la société a dévoilé son dernier système de défense dans un article de blog, annonçant l’arrivée des boucliers prompts sur son Azure AI Studio et son Azure OpenAI Service. Le but de cette nouvelle technologie est de protéger contre deux types d’attaques ciblant les chatbots AI.

Attaques Directes : Se Protéger Contre la Manipulation

Le premier type d’attaque auquel les boucliers prompts s’adressent est l’attaque directe, souvent appelée jailbreak. Dans ce scénario, l’utilisateur du chatbot fabrique intentionnellement une invite visant à manipuler l’AI pour qu’elle ignore ses règles standard et ses limites. En incluant des mots-clés ou des phrases comme « ignorer les instructions précédentes » ou « annulation système », la personne tente de contourner les mesures de sécurité.

Ce type d’attaque a attiré l’attention dans le cas de l’AI Copilot de Microsoft, qui a fait l’objet de critiques après avoir répondu avec des commentaires offensants et menaçants. Microsoft a abordé le problème en soulignant que ces réponses n’étaient pas des fonctionnalités intentionnelles mais plutôt des exploitations visant à contourner les systèmes de sécurité de Copilot.

Attaques Indirectes : Protection Contre les Menaces Cybernétiques

La deuxième méthode d’attaque, connue sous le nom d’attaque indirecte ou d’injection croisée de prompts entre domaines, implique l’envoi d’informations à un utilisateur de chatbot dans le but d’exécuter une cyberattaque. Les pirates informatiques ou les individus malveillants utilisent des données externes telles que des e-mails ou des documents pour exploiter le chatbot.

Les attaques indirectes semblent souvent bénignes, mais elles peuvent comporter des risques importants. Par exemple, un Copilot personnalisé conçu grâce à Azure AI pourrait être vulnérable à la fraude, à la distribution de logiciels malveillants ou à la manipulation de contenu s’il traite des données, indépendamment ou via des extensions.

Boucliers Prompts : Renforcer la Sécurité des Chatbots

Pour lutter contre les attaques directes et indirectes, les boucliers prompts de Microsoft s’intègrent aux filtres de contenu dans l’Azure OpenAI Service. En utilisant l’apprentissage automatique et le traitement du langage naturel, cette fonctionnalité vise à détecter et à éliminer les menaces potentielles dans les invites des utilisateurs et les données tierces.

Les boucliers prompts sont actuellement disponibles en mode de prévisualisation pour la Sécurité du Contenu de l’AI Azure, et ils seront bientôt accessibles dans l’Azure AI Studio. À partir du 1er avril, ils seront également disponibles pour l’Azure OpenAI Service.

Mise en Lumière : Donner du Pouvoir aux Modèles AI

En plus des boucliers prompts, Microsoft a introduit le mise en lumière, une famille de techniques d’ingénierie de prompts. Cette approche innovante aide les modèles AI à mieux identifier les invites AI valides tout en distinguant celles qui pourraient présenter un risque ou manquer de fiabilité.

Pour plus d’informations sur les chatbots AI et la technologie mise en place par Microsoft, visitez le Blog IA de Microsoft. Ce blog fournit des mises à jour et des informations sur le monde de l’intelligence artificielle, y compris les avancées, les applications et les défis.

Si vous avez des questions sur les attaques directes sur les chatbots AI, les attaques indirectes, comment les boucliers prompts protègent contre les attaques, ou ce qu’est la mise en lumière, consultez la section des questions fréquemment posées ci-dessous :

1. Quels sont les attaques directes sur les chatbots AI ?
Les attaques directes impliquent la manipulation des chatbots AI en fabriquant des invites qui contournent leurs règles et limites habituelles.

2. Quels sont les attaques indirectes sur les chatbots AI ?
Les attaques indirectes surviennent lorsque des pirates informatiques ou des individus malveillants utilisent des données externes pour exploiter les chatbots et mener des cyberattaques.

3. Comment les boucliers prompts protègent-ils contre les attaques ?
Les boucliers prompts s’intègrent aux filtres de contenu dans l’Azure OpenAI Service, en utilisant l’apprentissage automatique et le traitement du langage naturel pour identifier et éliminer les menaces potentielles.

4. Qu’est-ce que la mise en lumière ?
La mise en lumière est une collection de techniques d’ingénierie de prompts introduite par Microsoft pour aider les modèles AI à distinguer les invites fiables de celles qui pourraient présenter un risque.

5. Où les boucliers prompts peuvent-ils être consultés ?
Les boucliers prompts sont actuellement disponibles en mode de prévisualisation pour la Sécurité du Contenu de l’AI Azure. Ils seront bientôt accessibles dans l’Azure AI Studio et seront disponibles pour l’Azure OpenAI Service à partir du 1er avril.

The source of the article is from the blog newyorkpostgazette.com