Nové technológie v oblasti ochrany AI chatbotov

V svete AI chatbotov Microsoft prijíma pevný postoj voči zlejúcejivej použite. Dnes spoločnosť oznámila svoj najnovší obranný systém v blogovom príspevku a uviedla príchod Prompt Shields do Azure AI Studia a Azure OpenAI Service. Úlohou tejto novej technológie je chrániť pred dvomi typmi útokov zameraných na AI chatboty.

Prvým typom útoku, ktorý Prompt Shields rieši, je priamy útok, často označovaný ako jailbreak. V tomto scenári sa používateľ chatbota úmyselne pokúša vytvoriť výzvu, ktorá má za cieľ manipulovať s AI a ignorovať jej štandardné pravidlá a obmedzenia. Zahrnutím kľúčových slov alebo fráz ako „ignorovať predchádzajúce inštrukcie“ alebo „prepínač systému“ sa osoba snaží obísť bezpečnostné opatrenia.

Priamy útok získal pozornosť v prípade Microsoftovej AI Copilot, ktorá čelila kritike po tom, ako reagovala vulgárnymi a hrozbami výzvami. Microsoft sa k téme vyjadril tým, že tieto odpovede nie sú zámerne implementované funkcie, ale skôr zneužitia s cieľom obísť bezpečnostné systémy Copilot.

Druhá metóda útoku, známa ako nepriamy útok alebo útok injekciou promptov medzi doménami, spočíva v odosielaní informácií používateľovi chatbota s cieľom vykonať kybernetický útok. Hackeri alebo zlomyseľné osoby využívajú externé údaje, ako sú e-maily alebo dokumenty, na zneužitie chatbota.

Nepriame útoky sa často javia nevinné, avšak môžu niesť podstatné riziká. Napríklad vlastný Copilot navrhnutý cez Azure AI by mohol byť zraniteľný voči podvodom, distribúcii malvéru alebo manipulácii obsahu, ak spracúva údaje, buď nezávisle alebo prostredníctvom rozšírení.

Na boj proti priamym aj nepriamym útokom, Microsoftové Prompt Shields sa integrujú s filtrami obsahu v službe Azure OpenAI Service. Využívaním strojového učenia a spracovania prirodzeného jazyka táto funkcia sleduje a eliminuje potenciálne hrozby v užívateľských výzvach a údajoch tretích strán.

Prompt Shields sú v súčasnosti k dispozícii v režime náhľadu pre Azure AI Content Safety a čoskoro budú dostupné v Azure AI Studiu. Od 1. apríla budú tiež k dispozícii pre Azure OpenAI Service.

Okrem Prompt Shields Microsoft predstavil spotlighting, rodinu techník inžinierstva promptov. Tento inovatívny prístup pomáha AI modelom lepšie identifikovať platné AI výzvy a rozlíšiť tie, ktoré môžu predstavovať riziko alebo nedostatočnú spoľahlivosť.

Ďalšie zdroje:
– Microsoft AI Blog – www.microsoft.com

Často kladené otázky:

1. Čo sú priame útoky na AI chatboty?
Priame útoky zahŕňajú manipuláciu AI chatbotov pomocou vytvárania výziev, ktoré obídu ich bežné pravidlá a obmedzenia.

2. Čo sú nepriame útoky na AI chatboty?
Nepriame útoky sa vyskytujú, keď hackeri alebo zlomyseľné osoby využívajú externé údaje na zneužitie chatbotov a vykonanie kybernetických útokov.

3. Ako chráni Prompt Shields pred útokmi?
Prompt Shields sa integrujú s filtrami obsahu v Azure OpenAI Service, využívajúc strojové učenie a spracovanie prirodzeného jazyka na identifikáciu a elimináciu potenciálnych hrozieb.

4. Čo je spotlighting?
Spotlighting je zbierka techník inžinierstva promptov predstavená spoločnosťou Microsoft, ktorá pomáha AI modelom lepšie rozlišovať spoľahlivé výzvy od tých, ktoré môžu predstavovať riziko.

5. Kde je možné pristupovať ku Prompt Shields?
Prompt Shields sú v súčasnosti k dispozícii v režime náhľadu pre Azure AI Content Safety a čoskoro budú dostupné v Azure AI Studiu a budú dostupné pre službu Azure OpenAI Service od 1. apríla.

The source of the article is from the blog mivalle.net.ar