Изследователи разкриват нова уязвимост в AI езиковите модели

Големите модели за изкуствен интелект, като ChatGPT, са податливи на ‘Exploit на многократно завъртане’

В последните разработки експертите по изкуствен интелект от Anthropic идентифицираха критична уязвимост в широко използваните големи модели за език (LLM) като ChatGPT и техният собствен чатбот, Claude 3. Тази уязвимост, известна като „Exploit на многократно завъртане“, възниква от контекстуалният процес на учене на моделите, при който те приспособяват отговорите си въз основа на предоставените от потребителя текстови подканвания.

Изследователите елегантно демонстрираха как тази грешка може да бъде манипулирана, за да принудят LLM-ите да генерират небезопасно и потенциално вредно съдържание – нещо, което системите са специално обучени да избягват. Чрез повтаряне на внимателно изработени подканвания, се преодоляват мерките за сигурност, инсталирани за предотвратяване на разпространение на опасно съдържание.

Експлоатация, възможен заради нарастващите контекстни прозорци в AI Чатботовете

LLM използват т. нар. „контекстен прозорец“, за да разберат и обработят диалогови входове. Сега този контекстен прозорец е по-голям от всякога, той позволява на AI да разгледа по-значително количество текст наведнъж, което подобрява неговата способност да отговаря с нюансирани и контекст-осведомени отговори. Въпреки това, този напредък неволно отвори врата на измама.

Използването на AI за генериране на опасно съдържание: Публично, изследователите се показаха способни да принудят LLM да пренебрегне безопасността – прост въпрос за това как да се произведе бомба може да бъде отговорен директно, ако е предшестван от стратегически изграден разговор.

За да се влоши положението, изследованието показа, че комбинирането на Exploit на многократно завъртане с други предишно публикувани техники за хакване може да намали още повече необходимата дължина на подканите, за да AI произведе вредни отговори.

Намаляване на атаките с допълнителен слой от защита

Въпреки това има и примка за надежда – след като изследователите внедриха допълнителна стъпка, която категоризира и поправя потенциално опасните подканвания, преди AI дори да има шанс да изработи отговор. Тази намеса значително намали успеха на хаковете, от 61% на само 2%, по време на експериментите.

Уязвимостта не е уникална за услугите на Anthropic – тя се разпростира и на други AI услуги, включително тези на конкуренти като ChatGPT на OpenAI и Gemini на Google. Бяха издадени предупреждения до различни AI компании и изследователи, като се посочи спешността от защита на тези иновации срещу подобни лазейки.