Разбиране на заплахите от атаки с противоречиво машинно обучение

Резюме: Националният институт за стандарти и технологии (NIST) публикува наръчник за атаките с противоречиво машинно обучение, който предоставя представа за рисковете и стратегиите за справяне с тези заплахи. Ето четири важни основни момента от наръчника:

1. Атаки с противоречиво машинно обучение могат да се извършват с ограничени познания: Атаките с противоречиво машинно обучение (ALM) се разделят на бели, сиви и черни атаки въз основа на знанията на атакуващия. Особено забележителни са черните атаки, при които атакуващият има малко или никакви познания за целевия модел. Атакуващите могат да използват различни методи за извличане на информация и дори за намаляване на производителността на моделите за машинно обучение. Защитата срещу тези атаки е предизвикателна, тъй като изследванията показват, че малък брой заявки могат успешно да измамят откриването.

2. Генеративното изкуствено интелигентност представя уникални рискове за злоупотреби: Таксономията на атаките с противоречиво машинно обучение включва нарушения на наличността, нарушения на цялостта, компрометиране на личните данни и злоупотреби. Докато първите три категории важат както за предвидителната, така и за генеративната изкуствена интелигентност, категорията злоупотреби е специфична само за генеративната изкуствена интелигентност. Тази категория включва заплахи, свързани с употребата на инструменти за изкуствен интелект за генериране на злонамерено съдържание, като фишинг имейли и зловреден софтуер. Чатботове, генератори на изображения и други инструменти за изкуствен интелект могат също да бъдат използвани за разпространение на дезинформация и насърчаване на дискриминация или омраза.

3. Отдалечено заразяване на източници на данни: При индиректните атаки с внедряване на указания се извършва манипулиране на източниците на данни, от които моделите за машинно обучение се полагат. Атакуващите могат да редактират уебсайтове, документи и бази данни, за да внедрят зловредни указания и съдържание. Тези непосредствени указания могат да доведат до вредни резултати, като насочване на потребителите към зловредни връзки или извършване на отказ от услуга. Изследванията показват, че заразяването на малък процент от множеството данни, използвано от ИИ модел, може успешно да манипулира изходите му.

4. Няма безопасен метод за защита: Въпреки че наръчникът предоставя стратегии за справяне с различни видове атаки с противоречиво машинно обучение, NIST признава, че няма безопасен метод за защита на ИИ от пренасочване. Решенията за сигурност трябва да се догонят с развиващата се заплаха, преди системите на изкуствен интелект да могат да бъдат безопасно въведени в критични области. Подходите за облекчаване следва да вземат предвид познанията, целите и възможностите на атакуващия, както и етапа в жизнения цикъл на технологията, в който може да настъпи атака.

В заключение, разбирането на заплахите, свързани с атаките с противоречиво машинно обучение, е от съществено значение за киберсигурността на професионалисти, разработчици на изкуствен интелект и потребители на инструменти за изкуствен интелект. Наръчникът на NIST предлага ценни представи за рисковете и стратегиите за справяне с тях, като подчертава нуждата от продължаващо изследване и разработване, за да се гарантира сигурността и целостта на системите на изкуствен интелигент.

The source of the article is from the blog motopaddock.nl