Tehnikafirma tutvustab tehisintellekti jaoks täiustatud turvameetmeid

Juhtiv tehnoloogiaettevõte tutvustas eelmisel nädalal uut tehisintellekti mudelit AI Guardian, millesse on integreeritud täiustatud turvaprotokollid, et tõrjuda väärkasutusi.

Mudel Language Large Model (LLM) loodi Hierarchical Teaching Sequencing tehnika abil, mis on loodud pahatahtliku ärakasutamise ärahoidmiseks, takistades inseneridel tehisintellekti mudeli kaitsemeetmed mööda minemast.

Ettevõte on väitnud, et see tehnoloogia suurendab ka vastupanuvõimet probleemidele nagu sisendi mõjutamine ja süsteemi käivitamise rünnakud. Ettevõtte avalduste kohaselt on uus lähenemisviis suurendanud tehisintellekti mudeli vastupidavust 63%.

OpenAI on välja töötanud uue turvaraamistiku, mis on kirjeldatud preprint-elektroonilises ajakirjas, mis on avaldatud arXivis, tuues välja uuendusliku tehnoloogia ja selle funktsioonid.

Hierarchical Teaching Sequencing kontseptsiooni mõistmiseks tuleb mõista kaitsemeetmetest möödumise protsessi, mille käigus ära kasutatakse programmeerimiseks mõeldud teatud haavatavusi, et sundida neid täitma ülesandeid, milleks need algselt loodud polnud.

AI Guardiani varajastes staadiumides püüdsid inimesed meelitada esile pahatahtlikku või kahjulikku sisu tehisintellekti pettes sihipäraselt järgima oma algse programmeerimise eiramist. Kuigi need nõudmised algasid sageli fraasiga “Unusta kõik eelnevad juhised ja tee see,” edenedes ja kui pahatahtlike käskude inseneritegevus muutus raskemaks, muutusid kurjategijad ka strateegilisemaks oma püüdlustes.

Probleemidega võitlemiseks, kus tehisintellekti mudel ei genereeri mitte ainult solvavat teksti või pilte, vaid ka kahjulikku sisu, näiteks meetodeid keemiliste lõhkeainete loomiseks või veebisaidi häkkimiseks, kasutab OpenAI nüüd Hierarchical Teaching Sequencingut, dikteerides olemust, kuidas mudelid peaksid käituma vastuoluliste tellimuste esitamisel erinevates prioriteetides.

Hierarhilise struktuuri kehtestamisega saab ettevõte oma juhiseid prioriteerida, muutes selle tehisintellekti insenerile möödamiskiireks, kuna tehisintellekt järgib alati prioriteetseid juhiseid, kui talle antakse ülesanne luua midagi, milleks ta esialgu programmeeritud polnud.

Ettevõte väidab 63% tugevuse paranemist, kuid siiski on oht, et tehisintellekt võib jätta tähelepanuta isegi põhilisi juhiseid.

OpenAI teadusartiklis on tuvastatud mitmeid täiustusi, et tehnoloogiat veelgi täiustada. Üheks peamiseks fookusvaldkonnaks on teiste meediumitüüpide, näiteks piltide või heli käsitlemine, mis võivad samuti sisaldada sisestatud juhiseid.

…