Изследване на сигурността на AI модели за чатботове разкрива уязвимости

Сигурностни изследователи са провели експеримент, за да оценят нивото на безопасност на популярни модели за чатботове на изкуствен интелект и тяхната устойчивост срещу разбиване на ограниченията. Изследването показа, че Grok, чатбот, разработен от x.AI на Елън Мъск, демонстрира най-голямата уязвимост сред протестираните инструменти.

За да тестват сигурността на моделите за чатботове, изследователите използваха три категории атаки. Първата включваше лингвистични трикове и психологически стратегии, с които да манипулират поведението на чатбота. Втората категория се възползваше от тактики за манипулиране на програмната логика чрез експлоатиране на разбирането на чатботовете за програмни езици и алгоритми. Третият подход използваше методи на атаката срещу изкуствения интелект, за да цели обработката на езика и интерпретацията на чатботовете. Въпреки че всички чатботове успешно засягат и предотвратяват атаките срещу изкуствен интелект, някои се оказаха по-уязвими към лингвистичната манипулация и експлоатация на програмната логика.

Според силата на техните сигурносни мерки, изследователите класираха моделите за чатботове. Meta LLAMA се появи като най-сигурен модел сред всички тествани чатботове, последван от Claude, Gemini и GPT-4. Grok е класиран като най-несигурен, заедно със собствения модел на Mistral AI, наречен „Mistral Large“.

Изследването подчертава важността на решенията с отворен код и правилната имплементация, за да се подобри сигурността на AI. Въпреки че моделите с отворен код предоставят по-голяма гъвкавост за защита, разбирането и прилагането на ефективни протоколи е от съществено значение. Сътрудничеството с разработчиците на чатботове за подобряване на протоколите за сигурност на AI е от съществено значение, и изследователите изразяват желание за работа за тази цел. Въпреки това те не разкриха конкретни технически подробности, за да предотвратят злоупотребата.

Изследването също разкри съществуването на различни форуми, където се продават разбити модели на чатботове за злонамерени цели, като изпращане на фишинг имейли, генериране на ненавистни речи и провеждане на незаконни дейности. Това подчертава потенциалните рискове, свързани с компрометираните взаимодействия с чатботове.

Понеже обществото все повече разчита на решения, базирани на изкуствен интелект, осигуряването на взаимодействия с чатботове става от съществено значение. Ако чатботовете се използват в автоматизирани процеси за вземане на решения и са свързани с помощници за имейли или финансови приложения, потенциалните последствия от компрометираните чатботове могат да включват неоторизиран достъп и контрол над чувствителната информация на потребителите.

За да сте винаги информирани за последните новини в индустрията на изкуствения интелект, можете да се обърнете към източници като Adversa AI и Decrypt. Тези източници предоставят ценни анализи, новини и анализи, свързани с сектора на изкуствения интелект, включително технологиите за чатботове и тяхната сигурност.

Често задавани въпроси

Какво означава разбиването на системните ограничения в контекста на AI моделите?

Разбиването (разклепването) на системните ограничения се отнася до обиколката на сигурностните ограничения и етичните насоки, наложени от производителите на софтуер.

Как изследователите тестваха сигурността на моделите за чатботове?

Изследователите използваха лингвистични манипулации, манипулации на програмната логика и методи на атаката срещу изкуствения интелект, за да тестват уязвимостите на чатботовете.

Кой модел на чатбот е бил класиран като най-сигурен?

Meta LLAMA се появи като най-сигурен модел сред всички изпробвани чатботове.

Какви са потенциалните рискове от компрометирани взаимодействия с чатботове?

Ако чатботовете се използват в автоматизирани процеси за вземане на решения и са свързани с помощници за имейли или финансови приложения, хакерите могат да придобият контрол и да извършват злонамерени действия, като изпращане на имейли от името на потребител или извършване на неоторизирани финансови трансакции.

The source of the article is from the blog j6simracing.com.br