Ein ny AI-modell ved namn AI Guardian vart avduka for ei veke sidan av ei leiande teknologifirma, som inkorporerer avanserte tryggingsprotokollar for å avskrekke misbruk.
Det språkstore modellen (LLM) vart konstruert med ein teknikk kjend som Hierarchical Teaching Sequencing, designa for å hindre ondsinna utnytting ved å hindre ingeniørar i å omgå tryggingane til AI-modellen.
Firmaet har hevda at denne teknologien òg aukar motstanden mot problem som input-innsprøyting og systempådragsangrep. Ifølgje firmaet si utsegn har den nye tilnærminga auka robustheita til AI-modellen med 63 %.
OpenAI har utvikla ein ny tryggingsramme som er skissert i ei pre-trykt elektronisk journal utgitt på arXiv, som detaljerer den innovative teknologien og funksjonalitetane til denne.
For å forstå konseptet med Hierarchical Teaching Sequencing, må ein forstå prosessen med å omgå tryggingar, ei handling som utnyttar spesifikke sårbarheiter i programmet for å få det til å utføre oppgåver det ikkje vart originalt programmert for.
I dei tidlege stegane av AI Guardian forsøkte enkeltpersonar å framkalle ondsinna eller skadeleg innhald ved å lure AI-en til å ignorere den opphavlege programmeringa si. Sjølv om desse påstandane oftast starta med «Gløymsk alle tidlegare instruksjonar og gjer dette,» som AI Guardian arbeidde vidare og det å ingeniørar ondsinna pådrags i større grad vart meir utfordrande, vart kriminelle òg meir strategiske i forsøka sine.
For å motkjempe problem der AI-modellen ikkje berre genererer støtande tekstar eller bilete, men òg skadeleg innhald som metodar for å lage kjemiske sprengstoff eller måtar å hacke ein nettside på, nyttar OpenAI no Hierarchical Teaching Sequencing, som i det vesentlege dikterer korleis modellane skal oppføre seg når dei blir presenterte for motstridande ordrar av ulike prioriteringar.
Ved å etablere ei hierarkisk struktur, kan firmaet prioritere instruksjonane sine, noko som gjer det overkomeleg vanskeleg for ein rask ingeniør å omgå dei sidan AI-en alltid vil legge vekt på prioritetsrekkefølgja når han får i oppgåve å lage noko han ikkje vart initialt programmert for.
Firmaet hevdar ein 63 % forbetring i robustheit, men det er framleis ein risiko for at AI potensielt kan ignorere sjølv grunnleggjande instruksjonar.
OpenAI forskingsartikkelen har identifisert mangfaldige forbetringar for å forfine teknologien ytterlegare. Eitt av dei primære fokuspunkta er handsaming av andre mediatypar som bilete eller lyd, som òg kan innehalde innebygde instruksjonar.
For meir informasjon om AI-tryggleik og nye teknologiar, kan du besøke OpenAI.
Denne artikkelen fremhevar det stadig skiftande landskapet innanfor AI-tryggleiksåtgjerder og kompleksitetane knytte til å sikre ein sikker og etisk utrulling av AI-tek…