Pastiprinātas drošības pasākumi mākslīgā intelekta sistēmām, ko ieviesusi tehnoloģiju uzņēmums

Jaunais AI modelis ar nosaukumu AI Guardian tika atklāts pagājšnedēļ no vadītās tehnoloģiju uzņēmumu puses, integrējot uzlabotus drošības protokolus, lai novērstu ļaunprātīgu izmantošanu.

Valodas Lielais Modelis (LLM) tika izveidots, izmantojot tehniku, kas pazīstama kā Hierarhiskā Mācību Secība, kas ir paredzēta, lai novērstu ļaunprātīgu izmantošanu, novēršot inženierus no iespējas apiet AI modela aizsardzību.

Uzņēmums apgalvo, ka šī tehnoloģija arī uzlabo izturību pret problēmām, piemēram, datu ievades ielaišanu un sistēmas aktivizācijas uzbrukumiem. Saskaņā ar uzņēmuma deklarācijām, jaunā pieeja ir palielinājusi AI modela drošību par 63%.

OpenAI ir izstrādājusi jaunu drošības rāmju, kas aprakstīts priekšizteiktā elektronisko žurnālu ar nosaukumu arXiv, detalizējot inovatīvo tehnoloģiju un tās darbības veidus.

Lai saprastu Hierarhiskās Mācību Secības jēdzienu, ir nepieciešams saprast to procesu, kā iespējams apiet aizsardzību, kas izmanto specifiskas neaizsargātības programmas, lai piespiestu to veikt uzdevumus, kurus tā sākotnēji nebija ieprogrammēts veikt.

AI Guardian agrīnajos posmos individuāli mēģināja izraut ļaunu vai kaitīgu saturu, maldinot AI, lai tas nepievērstu uzmanību savai sākotnējai programmēšanai. Lai gan šie apgalvojumi bieži vien sākās ar “Aizmirstiet visas iepriekšējās instrukcijas un dariet šo”, AI Guardian progresējot un inženieriem izstrādājot ļauniem norēķiniem kļūstot sarežģītāk, noziedznieki arī kļuva stratēģiskāki savos mēģinājumos.

Lai apkarotu problēmas, kad AI models ne tikai ģenerē apvainojošus tekstus vai attēlus, bet arī kaitīgu saturu, piemēram, metodes, kā izveidot ķīmiskās sprādzienbīstamas vielas vai veidus, kā ielauzties mājaslapā, OpenAI tagad izmanto Hierarhiskās Mācību Secības, būtībā nosakot, kā modeļiem jārīkojas, ja viņiem tiek piedāvāti pretēji secītas komandas.

Izveidojot hierarhisku struktūru, uzņēmums var prioritizēt savas instrukcijas, padarot to ļoti grūtu, lai ātri inženieri tās varētu apiet, jo AI vienmēr ievēros prioritātes kārtību, kad tam tiek uzdots radīt kaut ko, kam tas sākotnēji nav ieprogrammēts.

Uzņēmums apgalvo 63% uzlabojumu izturībā, tomēr joprojām pastāv risks, ka AI varētu ignorēt pat pamatinstrukcijas.

OpenAI pētījuma rakstā ir identificētas vairākas uzlabojumu, lai turpmāk pilnveidotu tehnoloģiju. Viena no galvenajām fokusa jomām ir citu mediju veidu apstrāde, piemēram, attēlu vai skaņu, kas arī var saturēt iegultas instrukcijas.