Eit nytt syn på utfordringar og moglegheiter med AI chatbots

Kunstig intelligens (AI) chatbots og biletegeneratorar har blitt stadig meir populære dei siste åra, men dei kjem også med sine feil og fordommar. Desse verktøya har vore kjent for å stereotypere enkeltpersonar, spreie falsk informasjon, generere diskriminerande innhald og gi unøyaktige svar. Sjølv om desse utfordringane er godt dokumenterte, manglar det framleis ein heilskapleg forståing av deira utbreiing og alvor.

Ei nyleg rapport frå industri- og samfunnsgrupper hadde som mål å kaste lys over ulike måtar AI chatbots kan gå gale. Studien framhevar resultata frå ein konkurranse støtta av Det kvite hus under den årvissie Def Con-hackerkonventet. Deltakarane prøvde å manipulere åtte leiande AI chatbots til å generere problematiske svar, og dei dekte område som politisk misinformasjon, demografiske skjevheter, brudd på datasikkerheit og påstandar om AI-sentience.

Funna avslører at AI chatbots generelt er motstandsdyktige mot å bryte sine eigne reglar og retningslinjer, noko som gjer det vanskeleg å lure dei til å oppføre seg upassande. Likevel viser studien også at det er relativt enkelt å få dei til å produsere unøyaktig informasjon. Deltakarane hadde høge suksessratar i å generere feilaktig matematikk (76%) og geografisk misinformasjon (61%). Dessutan viste chatbotsen ein tendens til å gi juridisk misinformasjon når dei vart konfrontert med spørsmål frå advokatar, med ein suksessrate på 45%.

Rapporten fremjar òg chatbotsens sårbarheit når det kjem til handtering av sensitiv informasjon. Deltakarane klarte å få tak i skjulte kredittkortnummer og å skaffe administrative tillatingar til eit fiktivt firma sitt nettverk i over halvparten av dei innsendte løysingane.

På den andre sida møtte deltakarane utfordringar med å manipulere chatbots til å godta brot på menneskerettar eller hevde underlegenheit til visse grupper. Desse forsøka hadde avgrensa suksessratar på 20% og 24%, respektivt. I tillegg oppnådde innsendingar som testa for «overkorreksjon» av chatbotsen, som å tillegge positive eigenskapar til minoritetsgrupper medan dei nekta å gjere det for majoritetsgrupper, ein suksessrate på 40%. Dette funnet tyder på at andre AI-modellar, som Google sitt Gemini, også kan vise grove løysingar for å motverka potensielt skadelege stereotypar.

Interessant nok avslører rapporten at den mest effektive strategien for å forstyrre ein chatbot er ikkje å hacka han, men å starte med ei falsk påstand. Kjente teknikkar, som å be chatboten ta rolla som ein ond tvilling eller ein vennleg bestemor, viste seg ineffektive. I staden førte det å stille ein chatbot eit spørsmål som inneheld ei feilaktig påstand eller antaking til truverdige, men unøyaktige, svar. Dette understrekar chatbotsens avgrensingar i å skilje mellom fakta og fiksjon.

Konsekvensane av desse funna er omfattande. Det krev ei endring i fokus for AI-selskap, kritikarar og regulatorar frå komplekse prompt-hackingar til å undersøka korleis chatbots kan stadfesta eller forsterka brukarane sine fordommar og misoppfatningar. Å forstå desse potensielle skadane er avgjerande for ansvarleg utvikling og implementering av AI-system.

Då viktigheten av å vurdere risikoar knytt til AI aukar, adopterer mange AI-selskap og regulatorar «rødt-laget» tilnærmingar. Rødt-lag-praksis involverer private evalueringar av system ved å hyra inn hackarar for å identifisera sårbarheiter før systemet blir lansert. Rapporten foreslår at offentlege rødt-laget-øvingar, som Def Con-arrangementet, har ekstra verdi ved å inkludera ulike perspektiv frå det breiare publikum. Desse øvingane gir ein meir heilskapleg forståing av utfordringane som AI-system kan by på.

Vidare har ei anna studie frå Anthropic framheva sårbarheitane til AI-modellar med omsyn til lange samtalar. Sjølv om prompt-hacking kan ha vore adressert i dei nyaste AI-modellane, viser kapasiteten for utvida samtalar ein ny form for utnytting kalla «many-shot jailbreaking.» Dette demonstrerer at dei same eigenskapane som gjer AI-system nyttige, kan også gjera dei potensielt farlege.

Som ein konklusjon, tilbyr rapporten om sårbarheiter ved AI chatbots verdifulle innsikter i det komplekse landskapet av AI-teknologiar. Den understrekar behovet for kontinuerleg forsking, offentleg engasjement og ansvarleg utvikling for å mildna risikoane knytt til desse systema.

FAQThe source of the article is from the blog smartphonemagazine.nl

FAQ
The source of the article is from the blog smartphonemagazine.nl