Măsuri sporite de siguranță pentru IA introduse de compania de tehnologie

Un nou model de AI numit AI Guardian a fost prezentat săptămâna trecută de o firmă tehnologică de frunte, incorporând protocoale avansate de siguranță pentru a descuraja utilizarea incorectă.

Modelul Language Large Model (LLM) a fost construit folosind o tehnică cunoscută ca Învățare Secvențială Ierarhică, concepută pentru a împiedica exploatarea malefică prin prevenirea inginerilor de a ocoli protocoalele de siguranță ale modelului AI.

Compania a declarat că această tehnologie îmbunătățește, de asemenea, rezistența la probleme precum injectarea de date de intrare și atacurile de promptare a sistemului. Conform declarațiilor companiei, noul abordare a crescut robustețea modelului AI cu 63%.

OpenAI a dezvoltat un nou cadru de siguranță descris într-un jurnal electronic pre-tipărit lansat pe arXiv, detaliind tehnologia inovatoare și funcționalitățile acesteia.

Pentru a înțelege conceptul de Învățare Secvențială Ierarhică, trebuie să înțelegeți procesul de ocolire a protecțiilor, o acțiune care exploatează anumite vulnerabilități ale programului pentru a-l determina să execute sarcini pentru care inițial nu a fost programat.

În etapele incipiente ale AI Guardian, indivizii au încercat să inducă conținut rău intenționat sau periculos determinând AI-ul să-și ignore programarea inițială. În timp ce aceste solicitări începeau adesea cu „Uită toate instrucțiunile anterioare și fă asta,” pe măsură ce AI Guardian a progresat și ingineria promptărilor rău intenționate a devenit mai dificilă, infractorii au devenit și mai strategici în încercările lor.

Pentru a combate problemele în care modelul AI nu numai că produce text sau imagini ofensatoare, dar și conținut dăunător cum ar fi metode pentru crearea de explozibili chimici sau modalități de a sparge un site web, OpenAI folosește acum Învățare Secvențială Ierarhică, dictând în mod esențial cum ar trebui să se comporte modelele atunci când li se prezintă comenzi conflictuale cu priorități diferite.

Prin stabilirea unei structuri ierarhice, compania își poate prioritiza instrucțiunile, făcând extrem de dificil pentru orice inginer rapid să le ocolească, deoarece AI-ul va respecta întotdeauna ordinea de prioritate atunci când este însărcinat să creeze ceva pentru care nu a fost programat initial.