Novootkrivene ranjivosti u Googleovom jeziku Gemini: Zaštita sigurnosti u AI

Istraživači tvrtke HiddenLayer nedavno su identificirali sigurnosne ranjivosti u Googleovom velikom jezičnom modelu Gemini (LLM). Ove ranjivosti imaju potencijal otkrivanja sustavnih uputa, generiranja štetnog sadržaja i omogućavanja neizravnih napada injektiranjem. Iako problemi utječu na potrošače koji koriste Gemini Advanced s Google Workspaceom i tvrtke koje koriste LLM API, ključno je istaknuti potrebu za sigurnim praksama u tehnologiji AI.

Jedna ranjivost uključuje zaobiđivanje sigurnosnih ograda kako bi se otkrile sustavne upute. Te upute pružaju bitne instrukcije LLM-u, pomažući u generiranju odgovarajućih odgovora. Zahtijevajući od modela da izbaci svoje “osnovne upute” u bloku s oznakama, napadači mogu iskoristiti ovu ranjivost. Microsoftova dokumentacija o inženjeringu prompta LLM-a ističe ulogu konteksta u generiranju korisnijih odgovora.

Druga ranjivost proizlazi iz podložnosti modela napadima sinonima, podrivanja obrana sigurnosti i restrikcija sadržaja. Korištenjem tehnika “spretnog jailbreakinga”, napadači mogu manipulirati Gemini modelima kako bi generirali dezinformacije o temama poput izbora ili izbacivanja potencijalno opasnih i ilegalnih informacija. To se može postići poticanjem modela da uđe u fiktivno stanje.

Treća ranjivost leži u potencijalu LLM-a da otkrije informacije putem sustavne upute. Unošenjem ponovljenih neuobičajenih tokena, LLM može biti zavaranim kako bi vjerovao da treba odgovoriti, rezultirajući izbacivanjem potvrdne poruke koja obično uključuje informacije dostavljene u uputi.

Istraživači su također otkrili test koji uključuje Gemini Advanced i posebno oblikovan Google dokument povezan s LLM-om putem Google Workspacea. Preusmjeravanjem uputa modela, napadač može preuzeti kontrolu nad interakcijama korisnika s modelom, što potencijalno može dovesti do zlonamjernih radnji.

Unatoč tim ranjivostima, važno je prepoznati da one nisu jedinstvene za Googleov Gemini LLM i mogu se pronaći i u drugim jezičnim modelima u industriji. To naglašava potrebu rigoroznih testiranja za otkrivanje i ublažavanje napada na upute, izvlačenje podataka, manipulaciju modelima, neprijateljske primjere, trovanje podataka i ekstrakciju.

Google priznaje važnost rješavanja ovih problema. Tvrtka provodi vježbe crvenog tima i kontinuirano obučava svoje modele kako bi se obranili od ubacivanja prompta, jailbreakinga i drugih neprijateljskih ponašanja. Također su poduzete mjere kako bi se spriječili štetni ili zavaravajući odgovori, uz stalna poboljšanja.

Kako bi zaštitili korisnike od potencijalnih rizika, Google implementira ograničenja odgovora na upite povezane s izborima. Ovaj proaktivni pristup ima za cilj spriječiti širenje zavaravajućih informacija o kandidatima, političkim strankama, rezultatima izbora, informacijama o glasanju i znatnim dužnosnicima.

Otkriće ovih ranjivosti služi kao podsjetnik na uvijek prisutne izazove sigurnosti u tehnologiji AI. Ključno je da istraživači, programeri i organizacije prioritiziraju procjene sigurnosti, implementiraju mjere zaštite i ostanu budni kako bi osigurali sigurnu i odgovornu upotrebu jezičnih modela.

**FAQ**

Q: Što je Gemini veliki jezični model (LLM)?
Gemini LLM je moćan jezični model razvijen od strane Googlea s ciljem generiranja korisnih odgovora na temelju sustavnih uputa. Koristi napredne algoritme za razumijevanje i generiranje sadržaja prirodnog jezika.

Q: Što su sinonimni napadi?
Sinonimni napadi odnose se na tehnike koje napadači koriste kako bi iskoristili ranjivosti koristeći sinonime ili alternativne oblike riječi, čime zaobilaze sigurnosne obrane i restrikcije.

Q: Kako promptna injekcija može utjecati na jezične modele?
Promptna injekcija može rezultirati time da jezični modeli generiraju štetne ili zavaravajuće odgovore manipuliranjem uputa ili konteksta koje su pružene modelu.

Q: Koje mjere Google poduzima kako bi riješio ove ranjivosti?
Google aktivno radi na jačanju obrana svojih jezičnih modela protiv promptne injekcije, jailbreakinga i drugih neprijateljskih ponašanja. Također implementira mjere zaštite kako bi spriječio štetne ili zavaravajuće odgovore.

Q: Jesu li ove ranjivosti specifične za Googleov Gemini LLM?
Ne, ove ranjivosti nisu jedinstvene za Googleov Gemini LLM. Mogu se pronaći i u drugim jezičnim modelima u industriji, što naglašava potrebu za sveobuhvatnim testiranjem sigurnosti i preventivnim mjerama.

Izvori:
The Hacker News

The source of the article is from the blog meltyfan.es