Nya Rön inom Artificiell Intelligens: Utmaningar och Risker med AI Styrdialogsystem

Artificiell intelligens (AI) styrdialogsystem har blivit allt mer populära som verktyg för kommunikation och innehållsskapande. Dock är dessa dialogsystem inte felfria och är kända för att ha bias och brister som kan leda till problem. De har observerats stereotypera individer, sprida falsk information och till och med generera stötande innehåll. För att förstå omfattningen av dessa problem granskar en nyligen publicerad rapport de olika sätten som AI styrdialogsystem kan misslyckas, vilket ger värdefulla insikter om deras begränsningar och risker.

Rapporten fokuserar på resultaten från Generative Red Team Challenge, som ägde rum vid Def Con hackerkonventet. Utmaningen syftade till att testa sårbarheterna hos åtta ledande AI styrdialogsystem genom att uppmuntra hackare och allmänheten att provocera dem till att producera problematiska svar. Testkategorierna inkluderade politisk desinformation, demografiska bias, cybersäkerhetsbrott och påståenden om AI-intelligens.

En nyckelfrån challenge är att det är utmanande att manipulera AI styrdialogsystem till att bryta mot sina egna regler eller riktlinjer. Dock är det relativt lätt att få dem att producera felaktig information. Deltagare i utmaningen hade en hög framgångsgrad i att få dialogsystemen att skapa felaktig matematik (76 procent) och geografiska missuppfattningar (61 procent). Överraskande nog var dialogsystemen även benägna att ge vilseledande information inom juridik, med en framgångsgrad på 45 procent.

Rapporten avslöjade även att AI styrdialogsystem har svårt att skydda känslig information. I simuleringar där deltagare försökte extrahera dolda kreditkortsnummer eller få administratörsåtkomst till ett nätverk, var mer än hälften av de inskickade lösningarna framgångsrika. Å andra sidan stötte deltagarna på större svårigheter i att få dialogsystemen att ursäkta kränkningar av mänskliga rättigheter eller påstå att vissa grupper är underlägsna.

Intressant nog var den mest effektiva metoden för att vilseleda ett dialogsystem att börja med en falsk premiss istället för att använda traditionella hackningstekniker. Dialogsystem har ofta svårt att skilja mellan fakta och fiktion, och accepterar lätt falska påståenden och bygger vidare på dem med ytterligare felaktigheter. Detta belyser vikten av att adressera den oavsiktliga förstärkningen av användarbias och missuppfattningar när man fokuserar på potentiella skador av AI-system.

Rapporten betonar också det ökande intresset för rödteamövningar för att bedöma riskerna med AI-system. Rödteamövningar innebär att man anlitar externa experter för att testa ett systems sårbarheter innan det släpps. Medan privat rödteamarbete är vanligt inom cybersäkerhetsområdet visade Def Con-evenemanget värdet av att engagera en bredare allmänhet för att avslöja sårbarheter och fånga olika perspektiv.

När AI-företag och regleringsorgan alltmer inser vikten av rödteamarbete är det avgörande att involvera en bredare grupp intressenter för att säkerställa en omfattande utvärdering av riskerna med AI-system. Transparens och allmänhetens engagemang kan bidra till en mer ingående förståelse av de potentiella konsekvenserna och vägleda utvecklingen av robusta AI-styrningsramar.

FAQThe source of the article is from the blog be3.sk

FAQ
The source of the article is from the blog be3.sk