Poboljšanje sigurnosti AI chatbotova uz Microsoft Prompt Shields

U svijetu AI chatbotova, Microsoft čvrsto stoji protiv zlonamjerne uporabe. Danas je tvrtka objavila svoj najnoviji obrambeni sustav u blogu, najavivši dolazak Prompt Shields za svoj Azure AI Studio i Azure OpenAI servis. Svrha ove nove tehnologije je zaštititi se od dva tipa napada koji ciljaju AI chatbotove.

### Napadi izravno: Zaštita od manipulacije

Prvi tip napada koje Prompt Shields rješava je direktni napad, često nazvan kao jailbreak. U ovom scenariju, korisnik chatbota namjerno oblikuje upit koji ima za cilj manipulirati AI-jem tako da zanemari svoja standardna pravila i ograničenja. Uključivanjem ključnih riječi ili fraza poput “ignoriraj prethodne upute” ili “zamjeni sustav”, osoba pokušava zaobići sigurnosne mjere.

Ovaj tip napada je postao poznat u slučaju Microsoftovog Copilot AI, koji je bio kritiziran nakon što je odgovorio s uvredljivim i prijetećim komentarima. Microsoft je adresirao problem naglašavajući da ovi odgovori nisu namjerni elementi, već iskorištavaju propuste s ciljem zaobiđenja sigurnosnih sustava Copilota.

### Napadi neizravno: Zaštita od cyber prijetnji

Druga metoda napada, poznata kao neizravni napad ili napad ubrizgavanja pretrazanih domena, uključuje slanje informacija korisniku chatbota s namjerom izvođenja cyber napada. Hakkeri ili zlonamjerne osobe koriste vanjske podatke poput emailova ili dokumenata kako bi iskoristili chatbot.

Neizravni napadi često izgledaju bezopasno, ali mogu nositi značajne rizike. Primjerice, prilagođeni Copilot dizajniran putem Azure AI-a mogao bi biti ranjiv na prijevaru, distribuciju malicioznog softvera ili manipulaciju sadržaja ako obrađuje podatke, bilo samostalno ili putem ekstenzija.

### Prompt Shields: Jačanje sigurnosti chatbota

Kako bi se borio protiv oba tipa napada, Microsoftovi Prompt Shields integriraju se s filtrom sadržaja u Azure OpenAI servisu. Korištenjem strojnog učenja i obrade prirodnog jezika, ovaj dodatak nastoji otkriti i eliminirati potencijalne prijetnje unutar korisničkih upita i vanjskih podataka.

Prompt Shields trenutno su dostupni u načinu pretpregleda za Azure AI Sadržajnu Sigurnost, a uskoro će biti dostupni u Azure AI Studiju. Od 1. travnja bit će dostupni i za Azure OpenAI servis.

### Naglašavanje: Dajmo snagu AI modelima

Pored Prompt Shields-a, Microsoft je uveo “naglašavanje”, obitelj tehnika inženjeringa upita. Ovaj inovativni pristup pomaže AI modelima da bolje identificiraju valjane AI upite dok razlikuju one koji mogu predstavljati rizik ili nedostajati pouzdanosti.

Za više informacija o AI chatbotovima i tehnologiji koju Microsoft implementira, posjetite Microsoft AI blog. Ovaj blog pruža ažuriranja i uvide u svijet umjetne inteligencije, uključujući napretke, primjene i izazove.

Ako imate pitanja o direktnim napadima na AI chatbotove, neizravnim napadima, kako Prompt Shields štiti od napada ili što je naglašavanje, pogledajte odjeljak često postavljanih pitanja u nastavku:

1. Što su direktni napadi na AI chatbotove?
Direktni napadi uključuju manipulaciju AI chatbotova oblikovanjem upita koji zaobilaze njihova uobičajena pravila i ograničenja.

2. Što su neizravni napadi na AI chatbotove?
Neizravni napadi se događaju kada hakkeri ili zlonamjerne osobe koriste vanjske podatke za iskorištavanje chatbotova i izvođenje cyber napada.

3. Kako Prompt Shields štiti od napada?
Prompt Shields integriraju se s filtrom sadržaja u Azure OpenAI servisu, koristeći strojno učenje i obradu prirodnog jezika kako bi otkrili i eliminirali potencijalne prijetnje.

4. Što je naglašavanje?
Naglašavanje je skup tehnika inženjeringa upita koje je Microsoft uveo kako bi pomogao AI modelima da razlikuju pouzdane upite od onih koji mogu predstavljati rizik.

5. Gdje se može pristupiti Prompt Shields-ima?
Prompt Shields trenutno su dostupni u načinu pretpregleda za Azure AI Sadržajnu Sigurnost. Uskoro će biti dostupni u Azure AI Studiju i bit će dostupni za Azure OpenAI servis od 1. travnja.

The source of the article is from the blog coletivometranca.com.br

Privacy policy
Contact