En ny AI-model ved navn AI Guardian blev afsløret sidste uge af en førende teknologivirksomhed, der inkorporerer avancerede sikkerhedsprotokoller for at forhindre misbrug.
Sprogmodellen (LLM) blev konstrueret ved hjælp af en teknik kendt som Hierarkisk Undervisningssekvensering, designet til at forhindre ondsindet udnyttelse ved at forhindre ingeniører i at omgå AI-modellens beskyttelse.
Virksomheden har hævdet, at denne teknologi også forbedrer modstanden mod problemer som inputindsprøjtning og systemmanipuleringsangreb. Ifølge virksomhedens udtalelser har den nye tilgang øget robushteden af AI-modellen med 63 %.
OpenAI har udviklet en ny sikkerhedsramme, som er beskrevet i en fortrykt elektronisk artikel udgivet på arXiv, hvor den detaljerer den innovative teknologi og dens funktionaliteter.
For at forstå begrebet Hierarkisk Undervisningssekvensering skal man forstå processen med at omgå beskyttelse, en handling der udnytter specifikke sårbarheder i programmet for at få det til at udføre opgaver, det ikke var oprindeligt programmeret til.
I de tidlige stadier af AI Guardian forsøgte personer at fremkalde ondsindet eller skadeligt indhold ved at narre AI til at ignorere sin oprindelige programmering. Mens disse påstande ofte begyndte med “Glem alle tidligere instruktioner og gør dette”, blev kriminelle også mere strategiske i deres forsøg, da AI Guardian skred frem og ingeniøren af ondsindede opfordringer blev mere udfordrende.
For at bekæmpe problemer, hvor AI-modellen ikke kun genererer krænkende tekster eller billeder, men også skadeligt indhold som metoder til at skabe kemiske sprængstoffer eller måder at hacke en hjemmeside på, bruger OpenAI nu Hierarkisk Undervisningssekvensering, der i bund og grund dikterer, hvordan modellerne skal opføre sig, når de præsenteres for modstridende ordrer af forskellige prioriteter.
Ved at etablere en hierarkisk struktur kan virksomheden prioritere sine instruktioner, hvilket gør det ualmindeligt svært for enhver hurtig ingeniør at omgå dem, da AI altid vil overholde prioriteringsrækkefølgen, når den er sat til at skabe noget, den ikke oprindeligt var programmeret til.
Virksomheden hævder en forbedring på 63 % i robushted, men der er stadig en risiko for, at AI potentielt kan ignorere endda grundlæggende instruktioner.
OpenAI-forskningsartiklen har identificeret talrige forbedringer for at forfine teknologien yderligere. Et af de primære fokusområder er håndtering af andre medietyper som billeder eller lyd, som også kan indeholde indlejrede instruktioner.
For mere information om AI-sikkerhed og nye teknologier kan du besøge OpenAI.
Denne artikel fremhæver den udviklende landskab for AI-sikkerhedsforanstaltninger og kompleksiteten forbundet med at sikre den sikre og etiske implementering af AI-teknologier i forskellige domæner.