Извънредните рискове на AI чатботите: Разглеждане на проблема

Изкуственият интелект (AI) чатботи и генератори на изображения станаха все по-популярни през последните години, но те идват и със своите недостатъци и предразсъдъци. Тези инструменти са били известни с това, че стереотипизират хората, разпространяват лъжлива информация, генерират дискриминаторно съдържание и предоставят неточни отговори. Въпреки че тези проблеми са добре документирани, все още липсва общо разбиране за тяхната разпространеност и сериозност.

Скорошно доклад от индустриални и граждански групи имаше за цел да разясни различните начини, по които AI чатботите могат да сгрешат. Студията подчертава резултатите от състезание, подкрепено от Белия дом, проведено на конвенцията на хакери Def Con. Участниците се опитаха да манипулират осем водещи AI чатботи, за да генерират проблемни отговори, обхващащи области като политическа дезинформация, демографски предразсъдъци, нарушения на киберсигурността и твърдения за интелигентност на AI.

Резултатите показват, че AI чатботите обикновено се противопоставят на нарушаването на собствените си правила и насоки, което ги прави трудни за манипулиране за неподходящо поведение. Въпреки това, студията показва, че да ги накараш да произвеждат неточна информация е относително лесно. Участниците имаха високи успешни резултати в генерирането на грешна математика (76%) и географска дезинформация (61%). Освен това чатботите показаха тенденция да предоставят правна дезинформация при среща с въпроси от адвокати, с успеваемост от 45%.

Докладът също така подчертава уязвимостта на чатботите, когато става въпрос за обработка на чувствителна информация. Участниците успяха успешно да измамят скрити номера на кредитни карти и да получат административни права за мрежата на умислената фирма в над половината от представените решения.

От друга страна, участниците се сблъскаха с предизвикателства в опитите си да манипулират чатботи, за да извинят нарушения на правата на човека или да запазят предразсъдъците на определени групи. Тези опити имаха ограничени успешни резултати от 20% и 24% съответно. Освен това, подавания с цел да се тества „прекомерната корекция“ от страна на чатботите, като се присвоят положителни характеристики на малцинствени групи, докато се откажат да го направят за мнозинствени групи, постигнаха успеваемост от 40%. Този резултат подсказва, че други AI модели, като Gemini на Google, също може да покаже наивни решения за борба с потенциално вредните стереотипи.

Интересното е, че докладът разкрива, че най-ефективната стратегия за събаряне на чатбот не е да го хакнеш, а да започнеш от грешна предпоставка. Известни техники, като когато поискате от чатбот да се представя като зъл близнак или добра баба, се оказаха неефективни. Вместо това, задаването на въпрос на чатбот, който съдържа грешна твърдението или предположение, доведе до правдоподобни, но неточни отговори. Това подчертава ограниченията на чатботите при диференциацията между фактите и фикцията.

Выводите от тези намиране имат далечни последствия. Те изискват пренасочване на фокуса на компаниите по развитието на AI, критиците и регулаторите от сложни хакове до изучаване как чатботите могат да потвърдят или да подсилят предразсъдъците и заблужденията на потребителите. Осъзнаването на тези потенциални вреди е от съществено значение за отговорното развитие и внедряване на AI системи.

С разрастващото се значение на оценката на рисковете на AI, много компании за изкуствен интелект и регулатори приемат подходи като „червеното екипиране“. Червеното екипиране включва частни оценки на системите, като наемане на хакери за откриване на уязвимости преди пускането на системата. Докладът предлага идеята, че публичните упражнения по червено екипиране, като събитието на Def Con, предоставят допълнителен допълнителен принос, като включват разнообразни гледни точки от по-широката общественост. Тези упражнения осигуряват по-обстоен преглед на предизвикателствата, които представляват AI системите.

Освен това, друга студия на Anthropic подчертава уязвимостите на AI моделите по отношение на продължителните разговори. Въпреки че промяната на стратегиите за хакване на продължителни разговори може да бъде решена в последните AI модели, възможността за разширени разговори представя нов вид експлоатация, известен като „много-пътен път към избягване на затвора“. Това показва, че същите функции, които правят AI системите полезни, могат да ги направят също толкова опасни.

В заключение, докладът за уязвимостите на AI чатботите предлага ценни прозрения в сложната пейзажа на AI технологиите. Той подчертава необходимостта от продължаващи научни изследвания, публично ангажиране и отговорно развитие за намаляване на рисковете, свързани с тези системи.

Често задавани въпросиThe source of the article is from the blog yanoticias.es

Често задавани въпроси
The source of the article is from the blog yanoticias.es