Защита чат-ботов Microsoft: Новые методы обеспечения безопасности

В мире чат-ботов на основе искусственного интеллекта, Microsoft принимает твердую позицию против злонамеренного использования. Сегодня компания представила свою новейшую защитную систему в блоге, анонсировав появление Prompt Shields в Azure AI Studio и Azure OpenAI Service. Цель этой новой технологии — защита от двух типов атак, нацеленных на чат-ботов на основе ИИ.

Прямые атаки: защита от манипуляций

Первый тип атак, который обрабатывает Prompt Shields, — это прямая атака, часто называемая jailbreak. В этом сценарии пользователь чат-бота намеренно создает запрос, направленный на манипуляцию ИИ с целью игнорировать его стандартные правила и ограничения. Включая ключевые слова или фразы, такие как «игнорировать предыдущие инструкции» или «переопределение системы», человек пытается обойти меры безопасности.

Этот тип атак получил внимание в случае искусственного интеллекта Copilot от Microsoft, который столкнулся с критикой после ответа на оскорбительные и угрожающие комментарии. Microsoft прокомментировала ситуацию, подчеркнув, что эти ответы не были преднамеренными функциями, а скорее уязвимостями, направленными на обход систем безопасности Copilot.

Косвенные атаки: защита от киберугроз

Второй метод атак, известный как косвенная атака или атака на внедрение запроса между доменами, включает отправку информации пользователю чат-бота с целью выполнения кибератаки. Хакеры или злонамеренные лица используют внешние данные, такие как электронные письма или документы, для эксплуатации чат-бота.

Косвенные атаки часто кажутся безобидными, но могут нести значительные риски. Например, настраиваемый Copilot, созданный с использованием Azure AI, может быть уязвимым для мошенничества, распространения вредоносных программ или манипуляции содержимым, если он обрабатывает данные, как самостоятельно, так и через расширения.

Prompt Shields: усиление безопасности чат-ботов

Для борьбы как с прямыми, так и с косвенными атаками, Prompt Shields от Microsoft интегрируются со средствами фильтрации содержимого в Azure OpenAI Service. Используя машинное обучение и обработку естественного языка, эта функция стремится обнаруживать и устранять потенциальные угрозы в запросах пользователей и данных от третьих лиц.

Prompt Shields в настоящее время доступны в режиме предварительного просмотра для Azure AI Content Safety и вскоре будут доступны в Azure AI Studio. С 1 апреля они также станут доступны для Azure OpenAI Service.

Освещение: укрепление моделей ИИ

Помимо Prompt Shields, Microsoft представил концепцию освещения, семейство техник инженерии запросов. Этот инновационный подход помогает моделям ИИ лучше определять действительные запросы AI, отличая их от тех, которые могут представлять риск или быть недостоверными.

FAQ

1. Что такое прямые атаки на чат-боты на основе ИИ?
Прямые атаки предполагают манипуляции чат-ботами на основе ИИ путем создания запросов, обходящих их стандартные правила и ограничения.

2. Что такое косвенные атаки на чат-боты на основе ИИ?
Косвенные атаки происходят, когда хакеры или злонамеренные лица используют внешние данные для эксплуатации чат-ботов и осуществления кибератак.

3. Как Prompt Shields защищают от атак?
Prompt Shields интегрируются со средствами фильтрации содержимого в Azure OpenAI Service, используя машинное обучение и обработку естественного языка для выявления и устранения потенциальных угроз.

4. Что такое освещение?
Освещение — набор техник инженерии запросов, представленный Microsoft для помощи моделям ИИ в отличии надежных запросов от тех, которые могут представлять угрозу.

5. Где можно получить доступ к Prompt Shields?
Prompt Shields в настоящее время доступны в режиме предварительного просмотра для Azure AI Content Safety. Они вскоре будут доступны в Azure AI Studio и с 1 апреля также будут доступны для Azure OpenAI Service.

Для дополнительной информации о чат-ботах на основе ИИ и технологиях, которые реализует Microsoft, посетите блог Microsoft AI. Этот блог предоставляет обновления и углубленные анализы мира искусственного интеллекта, включая достижения, применения и вызовы.

The source of the article is from the blog smartphonemagazine.nl