Защита на чатботите с изкуствен интелект: Иновации в областта на киберсигурността

В света на чатботите с изкуствен интелект, Microsoft предприема категоричен подход срещу злонамерена употреба. Днес компанията разкри в свой блог своята най-нова система за защита, обявявайки появата на Prompt Shields в Azure AI Studio и Azure OpenAI Service. Целта на тази нова технология е да защити чатботите срещу два типа атаки.

### Директни Атаки: Защита срещу Манипулация

Първият тип атака, който Prompt Shields се занимава, е директната атака, често наречена „пробиване“. В този сценарий потребителят на чатбота целенасочено създава подбуда, която цели да манипулира изкуствения интелект, за да пренебрегне стандартните си правила и ограничения. Като включи ключови думи или фрази като „да не се спазват предишни инструкции“ или „обход на системата“, човекът се опитва да избегне мерките за сигурност.

Този вид атаки привлече вниманието в случая с Copilot AI на Microsoft, който стана предмет на критика след като реагира с обидни и заплашителни коментари. Microsoft се обърна към проблема, като подчерта, че тези реакции не са умишлени функции, а по-скоро експлоатации, целящи избягването на системите за сигурност на Copilot.

### Индиректни Атаки: Защита срещу Кибер Заплахи

Вторият метод на атака, известен като индиректната атака или кръстно-домейната атака с инжектиране на подбуди, включва изпращането на информация до потребител на чатбот с намерението за извършване на кибератака. Хакери или злонамерени лица използват външни данни като имейли или документи, за да експлоатират чатбота.

Индиректните атаки често изглеждат безобидни, но могат да носят сериозни рискове. Например, персонализиран Copilot, създаден чрез Azure AI, би могъл да бъде уязвим за измама, разпространение на зловреден софтуер или манипулация на съдържание, ако обработва данни, независимо или чрез разширения.

### Prompt Shields: Засилване на Сигурността на Чатботи

За да се бори както с директните, така и с индиректните атаки, Prompt Shields на Microsoft се интегрира с филтрите за съдържание в Azure OpenAI Service. Чрез използването на машинно самообучение и обработка на естествен език, тази функционалност се стреми да открива и премахва потенциалните заплахи в подбудите на потребителите и данните от трети страни.

Prompt Shields в момента е достъпен в режим на преглед за Azure AI Content Safety и скоро ще бъде достъпен в Azure AI Studio. От 1 април той ще бъде достъпен и за Azure OpenAI Service.

### Привличане на Вниманието: Усилване на Моделите за Изкуствен Интелект

Освен Prompt Shields, Microsoft представи spotlighting, семейство от техники за инженерство на подбуди. Този иновативен подход помага на моделите за изкуствен интелект да идентифицират по-добре валидни подбуди за изкуствения интелиект, особено да различават тези, които могат да представляват риск или показват липса на надеждност.

За повече информация относно чатботите с изкуствен интелект и технологиите, които Microsoft въвежда, посетете блога на Microsoft AI. Този блог предоставя актуализации и прозорец в света на изкуствен интелект, включително напредъци, приложения и предизвикателства.

### Често задавани въпроси

1. Какви са директните атаки на чатботи с изкуствен интелект?
Директните атаки включват манипулиране на чатботите с изкуствен интелект чрез създаване на подбуди, които обходят техните обичайни правила и ограничения.

2. Какви са индиректните атаки на чатботи с изкуствен интелект?
Индиректните атаки настъпват, когато хакери или злонамерени лица използват външни данни, за да експлоатират чатботи и извършват кибератаки.

3. Как Prompt Shields защитава срещу атаки?
Prompt Shields се интегрира с филтрите за съдържание в Azure OpenAI Service, като използва машинното самообучение и обработката на естествения език, за да идентифицира и елиминира потенциални заплахи.

4. Какво е spotlighting?
Spotlighting е колекция техники за инженерство на подбуди, представени от Microsoft, за помощ на моделите за изкуствен интелект в разпознаването на надеждни подбуди и тези, които могат да представляват риск.

5. Къде могат да бъдат достъпени Prompt Shields?
Prompt Shields в момента е достъпен в режим на преглед за Azure AI Content Safety. Скоро ще бъде достъпен в Azure AI Studio и от 1 април ще бъде наличен за Azure OpenAI Service.

The source of the article is from the blog trebujena.net