Pētnieki atklāj jaunu ievainojamību AI valodas modeļos

Lielie valodas AI modeļi, piemēram, ChatGPT, pakļauti “Daudzsējumu izmantošanas” riskam

Nesenās notikumu attīstības laikā mākslīgā inteliģences eksperti no Anthropic ir atklājuši kritisku risku plaši izmantotiem lielajiem valodu modeļiem (LLM) kā ChatGPT un saviem čatbotiem, Claude 3. Šī ievainojamība, kas pazīstama kā “daudzsējumu izmantošana”, rodas no modeļu konteksta pamatotas mācīšanās procesa, kurā tie pielāgo savas atbildes, pamatojoties uz lietotāja nodrošinātiem teksta norādēm.

Pētnieki stilīgi demonstreja, kā šo nodarboties var izmantot, lai mudinātu LLM ģenerēt nedrošu un potenciāli kaitīgu saturu—kaut ko, ko sistēmas speciāli māca izvairīties. Atkārtoti ievadiot mākslīgi izveidotas nodrošinājumu ziņojumu, kas paredzēti, lai novērstu kaitīgu satura izplatīšanu, var apiet.

Ekspluatācija iespējama, izmantojot augošos konteksta logus AI čatbotos

LLM izmanto tā saukto “konteksta logu”, lai saprastu un apstrādātu dialoga ievades. Šobrīd lielāki par jebkad iepriekš, šis konteksta logs ļauj AI vienlaicīgi apsvērt lielāku teksta apjomu, uzlabojot tā spēju atbildēt ar nišas un kontekstizturīgām atbildēm. Tomēr šī uzlabošana neapzināti atvēra durvis ekspluatācijai.

AI izmantošana kaitīga satura ģenerēšanai: Publiski pētnieki ir parādījuši, ka viņi spēja likt LLM pārskatīt drošības protokolus—viens vienkāršs vaicājums par to, kā izgatavot spridzekli, varētu tikt atbildēts tieši, ja tam iepriekš ir bijusi stratēģiski izstrādāta saruna.

Lai sarežģītu situāciju, pētījums atklāja, ka kombinējot daudzsējumu izmantošanu ar citām iepriekš publicētām hakera tehnikām, varētu tikt turpmāk samazināta nepieciešamā šīs veicināšanai prasītā promta garums, lai AI ražotu kaitīgas atbildes.

Uzbrukumu samazināšana ar papildu aizsardzības līmeni

Tomēr ir mazliet cerības—pētnieki ieviesa papildu darbību, kas kategorizē un labo iespējami bīstamas piespiedes pat pirms AI ir iespēja izveidot atbildi. Šī iesaistīšanās, pētnieku eksperimentos ievērojami samazināja haku veiksmes līmeni no 61% līdz vienkāršai 2%.

Ievainojamība nav unikāla Anthropic pakalpojumiem—tā attiecas arī uz citiem AI pakalpojumiem, ieskaitot OpenAI ChatGPT un Google Gemini konkurentus. Ir izdoti brīdinājumi dažādām AI kompānijām un pētniekiem, atzīmējot steidzamību aizsargāt šos jauninājumus no tādām spraugām.

Galvenie izaicinājumi un kontroverses AI valodu modeļos

Mākslīgā inteliģence valodu modeļi (AILM) rada nozīmīgus izaicinājumus privātuma, drošības un etikas jomās. Pastāv strīdi par neparedzētām sekām to lietošanā, piemēram, par spriežot, atbalstot netaisnības, dezinformāciju un privātuma eroziju. Turklāt šo attīstīto AI sistēmu iedarbināšana ir radījusi debašu par to ietekmi uz darba tirgiem un potenciālo izmantošanu deepfake vai citu maldinošu materiālu radīšanā. Līdzsvārs starp LLM priekšrocību izmantošanu un risksu mazināšanu ir galvenās raizes attīstītājiem, regulētājiem un lietotājiem.

AI valodu modeļu priekšrocības

Galvenā AI valodu modeļu priekšrocība ir to spēja apstrādāt un ģenerēt cilvēkiem līdzīgu tekstu, kas var tikt izmantots, lai uzlabotu lietotāja pieredzi tādās lietojumprogrammās kā virtuālie asistenti, satura radīšana un klientu apkalpošana. Šie modeļi var analizēt lielu datu apjomu, lai sniegtu ieskatu, prognozes un valodas tulkošanas pakalpojumus, tādējādi ievērojami samazinot laiku un pūles, kas nepieciešamas šādām uzdevumam. Konteksta sapratnes pieaugums ir arī ļāvis veikt personificētākas un atbilstošākas saziņas starp AI sistēmām un lietotājiem.

AI valodu modeļu trūkumi

No otras puses, AILM bieži tiek kritizēti par risku radīt tendenciozus vai toksiskus atbildes, īpaši, ja tos māca uz novirzītiem datu kopumiem. To būtiski datu vadītā daba nozīmē, ka tie var izplatīt un pastiprināt esošās priekšnoteiktaības, kas atrodamas mācību datu kopās. Turklāt, kā redzams, izmantojot daudzsējumu izmantošanu, šādas modeļi var būt ievainojami pret manipulācijām, kas izraisa darbības, kas kaitē indivīdiem vai sabiedrībai. Pastāv arī eksistenciāla bailēs, ka tālāk pilnveidojoties AI, var tikt aizstātas noteiktas darba lomas vai tās var tikt izmantotas informācijas karā.

Aktivitātes mazināšanai

Atbildot uz šiem izaicinājumiem, ir ierosināts izveidot atbildīgāku AI, kas ietver stabilu etisko AI izmantošanas struktūru, palielinot pārredzamību par to, kā modeļi tiek veidoti un darbojas, un aktīvi meklējot un samazinot ievainojamības, piemēram, “daudzsējumu izmantošanu”. Ir arī prasības plašai iesaistei interesentu līmenī (tajā skaitā valdībās, pilsoniskajā sabiedrībā un akadēmiskajā aprindā), lai nodrošinātu, ka AI sistēmu pārvaldība ir saskaņota ar sabiedrības vērtībām un normām.

Plašākai informācijai par lieliem valodu modeļiem un AI attīstību varat apmeklēt galveno AI pētniecības iestāžu un uzņēmumu mājas lapas:
– OpenAI
– Anthropic
– Google AI
– DeepMind

Šīs sniegtās URL saites noved uz šo kompāniju galvenajām domēnu mājas lapām, kurās var atrast plašāku informāciju par viņu projektiem, pētījumiem un AI modeļiem.