Microsofts generative AI viser unøjagtige svar, lækket lyd afslører

En lækket lydoptagelse af en intern præsentation har kastet lys over Microsofts generative AI-værktøj, Security Copilot, og dets udfordringer med at levere præcise svar. Præsentationen diskuterede resultaterne af “trusseljæger” -tests, hvor AI’en analyserede en Windows-sikkerhedslog for potentiel aktivitet med ondsindede hensigter. Ifølge en Microsoft-forsker ville værktøjet ofte “hallucinere” og komme med forkerte svar, hvilket gjorde det svært at få pålidelig information. For at vise værktøjets evner var Microsoft nødt til at udvælge eksempler, der tilsyneladende var korrekte, da AI’en genererede forskellige svar til det samme spørgsmål på grund af dens stokastiske natur.

Security Copilot fungerer på lignende vis som en chatbot og giver svar i stil med en kundeservicemedarbejder. Den er afhængig af OpenAI’s GPT-4 store sprogmodel, som også driver Microsofts andre generative AI-applikationer som Bing Søgeassistenten. Lydoptagelsen antyder, at Microsoft havde tidlig adgang til GPT-4, og at demonstrationerne var de første udforskninger af dens potentiale.

Dog afslørede forskerne, at AI’en ofte producerede forkerte svar i løbet af sine tidlige iterationer. Fænomenet med hallucination, hvor AI’en genererer svar, der ikke har noget med forespørgslen at gøre, var en stor udfordring. Microsoft forsøgte at tackle dette problem ved at forankre AI’en med rigtige data, men til Security Copilot blev den anvendte store sprogmodel, GPT-4, ikke specifikt trænet med cybersikkerhedsdata. I stedet støttede den sig på sin store, generelle datamængde.

Det er uklart, om Microsoft præsenterede disse udvalgte eksempler for regeringen og potentielle kunder, eller om virksomheden var åben omkring udvælgelsesprocessen. Microsoft har udtalt, at den teknologi, der blev diskuteret på mødet, er ældre end Security Copilot og blev testet på simulationer oprettet ud fra offentlige datasæt, uden brug af kundedata.

Denne lækage rejser spørgsmål om pålideligheden og præcisionen af generative AI-værktøjer, især inden for kritiske domæner som cybersikkerhed. Yderligere forskning og udviklingsindsats er nødvendig for at eliminere hallucinationer og forbedre ydeevnen af disse AI-systemer.

The source of the article is from the blog regiozottegem.be