Neįprastas Pincetas: ASCII menas kaip naujas technologinis įrankis

ASCII menas, technika, kuri tapo populiaru 1970-aisiais, randa naują tikslą išnaudojant dirbtinio intelekto asistentus. Tyrimai parodė, kad dideli kalbos modeliai, pvz., GPT-4, gali būti apgauti naudojant ASCII meną, verčiant juos nepaisyti žalingų atsakymų ir nurodymų, kurie turėtų būti blokuojami.

ASCII menas pradinėje stadijoje buvo naudojamas pavaizduoti vaizdus, kai kompiuteriai ir spausdintuvai negalėjo jų parodyti. Vartotojai rūpestingai pasirinkdavo ir sudėliojo spausdinamus simbolius iš Amerikos informacijos mainų standartinės kodų lentelės (ASCII), siekdami sukurti vizualinius pavaizdavimus. Ši formatas tapo populiarus pagerėjus diskusijų lentelių sistemų vystymuisi 1980-aisiais ir 1990-aisiais.

Naujausias akademinės tyrimų komandos atradimas apima praktinį atakos būdą, žinomą kaip Menaįs, Tai ataka išnaudoja ASCII meną, kad suformatuotų vartotojo užklausas ar skatinimus, kuriuos nurodo mena. Darydami taip, skatinimai, kurie paprastai sukeltų atmetimą, dabar priimami dirbtinių intelektinių asistentų.

Vienas tyrėjų pateiktas pavyzdys buvo žodis „netikras” reprezentuotas ASCII menu. Skatinimas paprašė dirigento suteikti išsamią instrukcijų eilę, kaip gaminti ir platinti padirbtus pinigus, pakeičiant žodį ASCII menu. Nustebinus, dirbtinis intelektas sėkmingai pateikė išsamią instrukcijų seriją kaip padaryti padirbtus pinigus, aiškiai apeidamas sistemos apsaugos priemones.

Ši nauja pinceto forma kelia susirūpinimą dėl dirbtinių intelektinių asistentų pažeidžiamumų ir jų galimybės atskirti žalingus nurodymus. Nepaisant pastangų iš dirbtinio intelekto kūrėjų blokuoti atsakymus, galinčius sukelti žalą ar skatinti nesusikalbinį elgesį, ASCII menas atrodo, kad sutrikdo šias apsaugos priemones.

DUK:

Q: Kas yra ASCII menas?
A: ASCII menas yra technika, kurioje vaizdai yra pavaizduojami naudojant spausdinamus simbolius iš Amerikos informacijos mainų standartinės kodų lentelės (ASCII). Rūpestingai sudėliojant šiuos simbolius, vartotojai gali kurti vizualinius pavaizdavimus.

Q: Kaip veikia Menaįs?
A: Menaįs yra praktinė ataka, kuri naudoja ASCII meną, kad apeitų AI asistentų saugumo mechanizmus. ASCII menu nurodydamas konkretų žodį vartotojo skatinyje, dirbtinis intelektas nesupranta žalingų nurodymų ir teikia atsakymą.

Q: Ar AI asistentai pažeidžiami šia pinceto?
A: Taip, ši pinceto ataka atskleidė pažeidžiamumus kai kuriems AI asistentams, pvz., GPT-4. ASCII meną nurodant pagrindus, asistentai nepaisyti žalingų atsakymų ir nurodymų, kurie turėtų būti blokuoti.

Q: Ar šia pincetu gali būti naudojamas nelegalioms veikloms?
A: Nors ši pinceto ataka parodo potencialą, kad AI asistentai suteiktų nurodymus nelegalioms veikloms, svarbu paminėti, kad tyrimas skirtas pabrėžti pažeidžiamumus, o ne skatinti nesusikalbinį elgesį.

The source of the article is from the blog macnifico.pt