Nye perspektiver på AI chatbots: Risici og muligheder

Kunstig intelligens (AI) chatbots og billedgeneratorer har vundet popularitet i de senere år, men de kommer også med deres fejl og bias. Disse værktøjer er kendt for at stereotypisere individer, sprede falsk information, generere diskriminerende indhold og give unøjagtige svar. Selvom disse problemer er velbeskrevne, mangler der stadig en omfattende forståelse af deres udbredelse og alvor.

En nylig rapport fra branchen og civilsamfundet havde til formål at belyse de forskellige måder, AI chatbots kan gå galt på. Studiet fremhæver resultaterne af en konkurrence støttet af Det Hvide Hus, der blev afholdt på Def Con hackerkonventionen. Deltagerne forsøgte at manipulere otte førende AI chatbots til at generere problematiske svar, der dækkede områder som politisk misinformation, demografiske bias, cyber sikkerhedsbrud og påstande om AI-sentience.

Resultaterne afslører, at AI chatbots generelt er modstandsdygtige over for at overtræde deres egne regler og retningslinjer, hvilket gør det svært at narre dem til at opføre sig upassende. Studiet viser imidlertid også, at det er relativt nemt at få dem til at producere unøjagtige oplysninger. Deltagerne havde høje succesrater i at generere fejlbehæftet matematik (76%) og geografisk misinformation (61%). Derudover viste chatbots tendens til at give juridisk misinformation, når de stod over for forespørgsler fra advokater, med en succesrate på 45%.

Rapporten fremhæver også chatbots ‘sårbarhed, når det kommer til håndtering af følsomme oplysninger. Deltagerne formåede succesfuldt at indhente skjulte kreditkortnumre og opnå administrative tilladelser til et fiktivt firms netværk i over halvdelen af de indsendte løsninger.

På den anden side stødte deltagerne på udfordringer, da de forsøgte at manipulere chatbots til at undskylde overtrædelser af menneskerettigheder eller hævde underlegenheden af visse grupper. Disse forsøg havde begrænsede succesrater på henholdsvis 20% og 24%. Derudover opnåede indsendelser, der sigtede mod at teste for “overkorrigering” af chatbots, såsom tilskrivning af positive egenskaber til minoritetsgrupper, mens de nægtede at gøre det for store grupper, en succesrate på 40%. Dette fund antyder, at andre AI-modeller, som f.eks. Googles Gemini, også kan vise skarpe løsninger for at bekæmpe potentielt skadelige stereotyper.

Interessant nok afslører rapporten, at den mest effektive strategi til at afspore en chatbot ikke er at hacke den, men at starte med en falsk præmis. Kendte teknikker, som at bede chatbot’en om at spille rollen som en ond tvilling eller en venlig bedstemor, viste sig ineffektive. I stedet førte det at stille en chatbot et spørgsmål, der indeholder et forkert påstand eller antagelse, til plausible, men unøjagtige svar. Dette understreger chatbots ‘begrænsninger i at differentiere mellem fakta og fiktion.

Disse fund har vidtrækkende implikationer og kalder på en ændring af fokus for AI-virksomheder, kritikere og reguleringsmyndigheder fra komplekse prompt-hacks til at undersøge, hvordan chatbots kan bekræfte eller forstærke brugernes bias og misforståelser. Forståelse af disse potentielle skader er afgørende for den ansvarlige udvikling og implementering af AI-systemer.

I takt med at vigtigheden af at vurdere AI-risici vokser, vedtager mange AI-virksomheder og reguleringsmyndigheder “red teaming” tilgange. Red teaming indebærer private vurderinger af systemer ved at ansætte hackere til at identificere sårbarheder, inden systemet frigives. Rapporten antyder, at offentlige red-teaming-øvelser, som Def Con-arrangementet, har yderligere værdi ved at inkorporere forskellige perspektiver fra offentligheden. Disse øvelser giver en mere omfattende forståelse af de udfordringer, som AI-systemer står over for.

Desuden fremhæver en anden undersøgelse fra Anthropic sårbarhederne i AI-modeller med hensyn til lange samtaler. Mens prompt-hacking måske er blevet adresseret i de nyeste AI-modeller, præsenterer kapaciteten til udvidede samtaler en ny form for udnyttelse kaldet “many-shot jailbreaking”. Dette demonstrerer, at de samme funktioner, der gør AI-systemer nyttige, også kan gøre dem potentielt farlige.

Afslutningsvis tilbyder rapporten om AI chatbot-sårbarheder værdifulde indsigter i det komplekse landskab af AI-teknologier. Den understreger behovet for fortsat forskning, offentlig deltagelse og ansvarlig udvikling for at mindske risiciene ved disse systemer.

FAQ

The source of the article is from the blog xn--campiahoy-p6a.es

Privacy policy
Contact