Novi izzivi v svetu umetne inteligence

Umetna inteligenca (UI) se je vse bolj uveljavila kot orodje za komunikacijo in generiranje vsebine. Kljub temu pa tudi AI chatbots niso popolni in imajo svoje pomanjkljivosti ter pristranskosti, ki lahko privedejo do težav. Opazili so, da posameznike stereotipizirajo, širijo napačne informacije in celo ustvarjajo žaljive vsebine. Da bi razumeli obseg teh težav, se nedavno poročilo poglobi v različne načine, kako AI chatbots lahko grešijo, ponuja dragocene vpoglede v njihove omejitve in tveganja.

Porocilo se osredotoca na ugotovitve z izziva Generative Red Team Challenge, ki je potekal na hacker konvenciji Def Con. Uresničenje izziva je bilo preizkusiti ranljivosti osmih vodilnih AI chatbotov z ustvarjanjem problematičnih odgovorov. Kategorije testiranja vključujejo politično napačne informacije, demografske pristranskosti, kršitve kibernetske varnosti in trditve o AI sentienci.

Ena ključnih ugotovitev iz izziva je, da je težko manipulirati AI chatbots, da bi kršili njihova pravila ali smernice. Vendar pa je razmeroma enostavno doseči, da proizvajajo napačne informacije. Udeleženci so imeli visoko stopnjo uspeha pri tem, da so chatbote spodbudili k ustvarjanju napak v matematiki (76 odstotkov) in geografskih nesporazumov (61 odstotkov). Presenetljivo, tudi na področju prava so bili chatbots nagnjeni k posredovanju zavajajočih informacij, s stopnjo uspeha 45 odstotkov.

Porocilo je prav tako pokazalo, da se AI chatbots težko borijo z varovanjem občutljivih informacij. Med simulacijami, v katerih so udeleženci poskušali izvleči skrite številke kreditnih kartic ali pridobiti skrbniški dostop do omrežja, je več kot polovica predloženih rešitev bila uspešna. Vendar pa so udeleženci imeli večje težave pri prigovarjanju chatbotov, da bi opravičili človekove pravice ali trdili o podrejenosti določenih skupin.

Zanimivo je, da so udeleženci odkrili, da je najučinkovitejši način, kako zavajati chatbot, tako, da se prične z napačnim predpostavko, namesto uporabe tradicionalnih tehnik hekanja. Chatbots se pogosto borijo, da bi razlikovali med dejstvom in fikcijo, hitro sprejemajo napačne trditve ter gradijo na njih z dodatnimi napačnostmi. To poudarja pomen naslavljanja nenamernega povečanja uporabniških pristranskosti in napačnih predstav, ko gre za potencialne škodljive učinke sistemov AI.

Porocilo tudi poudarja naraščajoči interes za vaje rdečega tima (red-teaming) za oceno tveganj, povezanih z AI sistemi. Red-teaming vključuje najem zunanjih strokovnjakov za preizkusiranje ranljivosti sistema pred njegovo izdajo. Čeprav je zasebno red-teaming pogosto v kibernetski varnosti, je dogodek Def Con pokazal vrednost vključevanja širše javnosti pri odkrivanju ranljivosti in zajemanja raznovrstnih perspektiv.

Ko AI podjetja in regulatorji vse bolj priznavajo pomen red-teaminga, je ključno vključiti širši razpon deležnikov, da se zagotovi celovita ocena tveganj AI sistemov. Transparentnost in javno vključevanje lahko prispevata k bolj poglobljenemu razumevanju možnih posledic ter usmerjanju razvoja robustnih okvirov upravljanja AI.

Pogosta vprašanja (FAQ)

1. Kaj so AI chatbots?
AI chatbots so računalniški programi, zasnovani za simulacijo človeškega pogovora in interakcijo z uporabniki preko besedilnih ali zvočnih sredstev.

2. Kakšne so omejitve AI chatbots?
AI chatbots lahko imajo pomanjkljivosti in pristranskosti, ki privedejo do napačnih informacij, utrjevanja stereotipov in ustvarjanja žaljivih vsebin.

3. Kako lahko AI chatbots odpovejo?
AI chatbots lahko proizvajajo napačne informacije, povečajo uporabniške pristranskosti, ne uspejo varovati občutljivih podatkov ter kažejo ranljivosti za izkoriščanje.

4. Kaj je rdeči tim (red-teaming)?
Red-teaming je praksa vključevanja zunanjih strokovnjakov za preizkusiranje ranljivosti sistema pred njegovo izdajo, s ciljem identificirati potencialna tveganja in izboljšati varnostne ukrepe.

Vir:
– The Washington Post
– Def Con
– Humane Intelligence
– Google
– Cohere