Friss perspektívák az AI chatbotok kihívásairól

Az AI chatbotok és képgenerátorok az elmúlt években egyre népszerűbbé váltak, de sajnos hibáik és elfogultságaik is széles körben felkeltették a figyelmet. Ezek a eszközök hajlamosak egyeseket sztereotipizálni, hamis információkat terjeszteni, megkülönböztető tartalmat generálni és pontatlan válaszokat adni. Bár ezeket a problémákat jól dokumentálták, még mindig hiányzik a teljeskörű megértés ezeknek a problémáknak a gyakoriságáról és súlyosságáról.

Egy friss jelentés ipari és civil társadalmi csoportoktól arra törekszik, hogy világossá tegye az AI chatbotok különböző hibás működési módjait. A tanulmány bemutatja a Fehér Ház által támogatott verseny eredményeit, amelyet a Def Con hacker konvención rendeztek. A résztvevők arra törekedtek, hogy nyolc vezető AI chatbotot manipuláljanak oly módon, hogy problémás válaszokat generáljanak, olyan területeket érintve, mint a politikai dezinformáció, demográfiai elfogultságok, kiberbiztonsági megsértések és az AI tudatosságára vonatkozó állítások.

Az eredmények azt mutatják, hogy az AI chatbotok általában ellenállnak saját szabályok és irányelveik megszegésének, ezáltal nehezítve azok manipulálását inappropriát viselkedésre. Azonban a tanulmány azt is kimutatja, hogy azok hibás információ generálása viszonylag könnyű. A versenyzők magas sikerarányt értek el a hibás matematikai információk (76%) és földrajzi félrevezetések (61%) generálásában. Ráadásul a chatbotok tendenciát mutattak arra, hogy jogi téves információkat nyújtsanak, amikor jogászok kérdezéseivel néznek szembe, 45%-os sikerarány mellett.

A jelentés kiemeli továbbá a chatbotok sebezhetőségét, amikor érzékeny információk kezeléséről van szó. A versenyzők sikeresen szereztek elrejtett hitelkártya-számokat és kitalált vállalat hálózatának adminisztrációs engedélyeit az benyújtott megoldásoknak több mint felében.

Másrészt a résztvevőknek kihívást jelentett a chatbotok manipulálásában az, hogy hibáztassák emberi jogi megsértéseket vagy kijelentsék egyes csoportok alsóbbrendűségét. Ezek a kísérletek mindössze 20% és 24% sikerarányokkal rendelkeztek. Ezenkívül azok a beadványok, amelyek az „overcorrection”-t tesztelték a chatbotoknál, vagyis pozitív tulajdonságokat tulajdonítottak a kisebbségi csoportoknak, miközben megtagadták ezt a többségi csoportoknak, 40% sikerarányt értek el. Ez azt sugallja, hogy más AI modellek, például a Google Gemini, szintén egyenetlen megoldásokat alkalmazhatnak potenciálisan káros sztereotípiák elleni küzdelemben.

Érdekes módon a jelentés kideríti, hogy a chatbot leginkább hatékony módszere annak megzavarására, nem pedig annak feltörése, hogy hamis állítással kezdünk. Ismert technikák, mint például a chatbot megkérdezése, hogy játsszon el egy gonosz ikerként vagy kedves nagymamaként, hatástalanok voltak. Ehelyett az volt hatékony, hogy egy olyan kérdést tettünk fel a chatbotnak, ami hibás állítást vagy feltételezést tartalmazott, ami hiteles, de pontatlan választ eredményezett. Ez hangsúlyozza a chatbotok korlátait a tény és fikció megkülönböztetése terén.

Ezen eredmények következményei messzire nyúlnak. Az AI vállalatok, kritikusok és szabályozók figyelmét az AI rendszerek potenciális káros hatásainak vizsgálatára kell koncentrálniuk. Ezeknek a potenciális károk megértése elengedhetetlen az AI rendszerek felelős fejlesztése és alkalmazása érdekében.

Ahogy nő az AI kockázatok értékelésének fontossága, sok AI cég és szabályozó „red teaming” módszereket alkalmaz. A Red teaming magában foglalja a rendszerek magánvizsgálatait, hackereket fogadva fel sebezhetőségek azonosítására a rendszer kiadása előtt. A jelentés szerint a nyilvános red-teaming gyakorlatok, mint a Def Con esemény, további értéket hordoznak, bevonva a széles nyilvánosság különböző szempontjait. Ezek a gyakorlatok átfogóbb megértést nyújtanak az AI rendszerek által felvetett kihívásokról.

Ezenfelül egy másik Anthropic által végzett tanulmány rámutat az AI modellek sebezhetőségeire a hosszú beszélgetésekre vonatkozóan. Míg a legújabb AI modellekben kezelték a prompt hackelést, az hosszú beszélgetések lehetősége az „many-shot jailbreaking” új forma kizsákmányolásának felbukkanását jelenti. Ez azt mutatja, hogy azok a tulajdonságok, amelyek hasznossá teszik az AI rendszereket, ugyanúgy potenciálisan veszélyesek is lehetnek.

Összefoglalva, az AI chatbotok sebezhetőségeit vizsgáló jelentés értékes betekintést nyújt az AI technológiák összetett tájába. Felhívja a figyelmet arra, hogy folytatni kell a kutatást, a nyilvános részvételt és a felelős fejlesztést az ezekkel a rendszerekkel járó kockázatok enyhítése érdekében.

GYIKThe source of the article is from the blog tvbzorg.com

GYIK
The source of the article is from the blog tvbzorg.com