Jaunās aizsardzības metodes pret maldinošām vizuālām shēmām AI sistēmās

Mākslīgā intelekta (AI) sistēmas ir uzņēmīgas pret manipulāciju ar vizuāliem trikiem un maldinošiem signāliem, kas rada bažas par potenciālajām bīstamībām, ko tās varētu radīt. Pentagona atzīst šīs ievainojamības un aktīvi strādā, lai tās risinātu, izmantojot savu pētniecības programmu, ko sauca par Garantēta AI izturība pret maldinošiem uzbrukumiem (GARD). Kopš 2022. gada GARD pēta “pretinieku uzbrukumus”, kas var novest pie AI sistēmu objektu neidentifikācijas, kas varētu radīt katastrofiskas sekas, īpaši militārās vides gadījumā.

Viens no pētījuma galvenajiem secinājumiem ir spēja vizuāli nekaitīgām shēmām maldināt AI sistēmas. Piemēram, AI sistēma varētu saprast, ka autobuss ar pasažieriem ir tanka, ja uz autobusa ir piemērota konkrēta “vizuālā troksnis” shēma. Tas atklāj potenciālo bīstamību no atkarības no AI sistēmām kritisku lēmumu pieņemšanai, īpaši situācijās, kurās ir likts uz spēli cilvēku dzīvību.

Vienlaikus ar sabiedrības augošajām bažām par Pentagona autonomo ieroču izstrādi Amerikas Aizsardzības departaments nesen ir atjauninājis savus AI attīstības noteikumus, lai prioritizētu “atbildīgu uzvedību” un pieprasītu atļauju visiem izvietotajiem AI sistēmām. Tomēr aizstāvības grupas joprojām izsaka bažas par iespēju nepareizi interpretēt un nenoteiktu eskalāciju, ko varētu radīt AI ieroči, neatkarīgi no apzinātas manipulācijas. Šīs bažas ir īpaši izteiktas saspringtās reģionos, kur jebkuri aprēķinu kļūmes varētu radīt nopietnas sekas.

Atbildot uz šīm bažām, GARD programma ir panākusi būtisku progresu, izstrādājot aizsardzības metodes pret pretinieku uzbrukumiem. Jaunizveidotais Aizsardzības departamenta Galvenā digitālā un AI birojs (CDAO) pat ir saņēmis rīkus un resursus no GARD programmas, kas palīdz risināt šīs ievainojamības. Šie centieni liecina par Pentagona apņemšanos garantēt atbildīgu AI tehnoloģiju attīstību un tā atzīšanu, ka ir svarīgi nekavējoties risināt šīs ievainojamības.

Lai atbalstītu turpmākās pētniecības jomā, GARD pētnieki no Two Six Technologies, IBM, MITRE, Čikāgas Universitātes un Google Research ir radījuši virkni resursu un materiālu. Tie ietver Armory virtuālo platformu, kas ir pieejama GitHub, un kalpo kā visaptverošs “testa lauks” pētniekiem, lai veiktu pretinieku aizsardzības novērtējumus atkārtojamā, skalējamā un efektīvā veidā. Adversarālās izturības rīku kopa (ART) piedāvā attīstītājiem un pētniekiem dažādas rīkus, lai aizsargātu un novērtētu savus mašīnmācības modeļus pret dažādiem pretinieku draudiem. Turklāt Adversarial Patches Rearranged In COnText (APRICOT) dati ļauj veikt reproducējamus pētījumus par fizisko adversarālo plāksteru uzbrukumu efektivitāti objektu atklāšanas sistēmām. Google Research Self-Study repozitorijs arī satur “testa manekenus”, kas pārstāv kopējas idejas vai pieejas aizsardzības izstrādei.

Kamēr AI turpina spēlēt arvien nozīmīgāku lomu dažādās jomās, no militārām lietojumprogrammām līdz ikdienas tehnoloģijām, ir būtiski saprast un aizsargāt pret ievainojamībām, kas var apdraudēt to uzticamību. Caurspīdīgs pētījums, atbildīga attīstības prakse un pastāvīga sadarbība starp nozari un akadēmiju var palīdzēt nodrošināt, ka AI sistēmas ir uzticamas un izturīgas pret pretinieka uzbrukumiem.

Uz sīkāku informāciju varat apmeklēt a (domain).