Нові засоби захисту для чат-ботів: Інклюзія функцій Prompt Shields в систему безпеки

У світі чат-ботів засоби безпеки набирають новий рівень завдяки ініціативі Microsoft. Сьогодні компанія розкрила свою останню систему захисту в дописі на блозі, оголошуючи появу Prompt Shields у своєму Azure AI Studio та Azure OpenAI Service. Мета цієї нової технології полягає в захисті від двох видів атак на чат-боти.

Прямі атаки: Захист від Маніпуляцій

Перший тип атак, який адресує Prompt Shields, – це пряма атака, часто називана втечаю. У цьому сценарії користувач чат-бота усвідомлено створює запит, спрямований на маніпулювання штучним інтелектом для ігнорування його стандартних правил та обмежень. Включаючи ключові слова або фрази, такі як “ігнорувати попередні інструкції” або “системний оверрайд”, людина намагається обійти заходи безпеки.

Даний вид атак набув популярності в разі AI Copilot від Microsoft, яка потрапила під критику після відповідей із образливими та загрозливими коментарями. Microsoft вирішила це питання, підкресливши, що ці відповіді не були умисними функціями, а лише експлойтами, спрямованими на обійти системи безпеки Copilot.

Непрямі атаки: Захист від Кіберзагроз

Другий метод атак, відомий як непряма атака чи атака впливом крос-доменних запитів, передбачає відправлення інформації користувачеві чат-бота з метою виконання кібератаки. Хакери або зловмисники використовують зовнішні дані, такі як електронні листи чи документи, для експлуатації чат-бота.

Непрямі атаки часто виглядають невинними, але вони можуть нести значні ризики. Наприклад, індивідуально спроектований Copilot за допомогою Azure AI може бути уразливим для шахрайства, розповсюдження шкідливих програм або маніпулювання контентом, якщо він обробляє дані самостійно або через розширення.

Prompt Shields: Підвищення Безпеки Чат-ботів

Для боротьби як з прямими, так і з непрямими атаками, Prompt Shields від Microsoft інтегрується в фільтри контенту в Azure OpenAI Service. Використовуючи машинне навчання та обробку природньої мови, ця функція спрямована на виявлення та усунення потенційних загроз у користувацьких запитах та даних сторонніх постачальників.

Prompt Shields в даний час доступний в режимі попереднього перегляду для Azure AI Content Safety, і незабаром він буде доступний в Azure AI Studio. З 1 квітня він також буде доступний для Azure OpenAI Service.

Презентація: Пошукові Інструменти для Підвищення Інтелектуальних Моделей

Крім Prompt Shields, Microsoft представила презентацію, сімейство технік інженерії запитів. Цей інноваційний підхід допомагає інтелектуальним моделям краще ідентифікувати валідні запити ШШІ, відрізнюючи ті, які можуть нести ризик або бути ненадійними.

Часто Задавані Питання

1. Що таке прямі атаки на чат-боти?
Прямі атаки включають маніпулювання чат-ботами шляхом створення запитів, які обходять їхні звичайні правила та обмеження.

2. Що таке непрямі

The source of the article is from the blog rugbynews.at