Napredni jezikovni modeli umetne inteligence se borijo z enostavnimi logičnimi nalogami.

Skupina mednarodnih raziskovalcev je nedavno pod drobnogled vzela večje jezikovne modele (LLM), kot so Llama 2, Gemini Pro, GPT-4 in Claude 3, da bi razumeli njihovo uspešnost pri osnovnih logičnih vprašanjih, ki jih ljudje običajno enostavno odgovorimo. Vsakemu modelu je bila predstavljena naloga: glede na število Aliceinih bratov (N) in sester (M), koliko sester bi imel Alicein brat? Čeprav bi večina odraslih in nekateri otroci takoj ugotovili pravilni odgovor – da je skupaj s sestrami in Aliceinim bratom tudi Alice sama, kar pomeni, da bi imel brat M+1 sestere – so bili rezultati umetne inteligence nekoliko zaskrbljujoči.

Preizkus AI z Družino Alenke v Čudežni deželi

Izziv, ki so ga raziskovalci poimenovali problem Alenke v Čudežni deželi (AIW), je pokazal, da so večji in bolj parametrov polni modeli, kot je GPT-4, dosegli boljše rezultate, vendar je bil uspeh vseeno omejen. Najboljši model, GPT-4o, je dosegel največ 65 % natančnosti. Drugi modeli, vključno z Llamo 2/3 iz Meta, so pogosto spodleteli.

Različni Vzorci, Nedosledni Rezultati

Študija je uporabila tri vrste vzorcev za usmerjanje modelov: standardni vzorec, ki prosi za rešitev in njen racional; Vzorec Razmišljanja, ki jih spodbuja, da preverijo delo; in Vzorec z Omejenim Formatom, ki zahteva samo odgovor. Na podlagi 30 preizkusov na vrsto vzorcev so bili rezultati zabeleženi v tabelo, ki jasno kaže na velik kontrast med visoko uspešnostjo umetne inteligence na standardnih merilih in šibkejšimi rezultati AIW-testa.

Zanesljivo Napačni

Ena zaskrbljujoča opazka je bila, da so modeli, kljub očitnim napakam, lahko prepričljivo argumentirali svoje napačne odgovore. Ta pojav lahko zavaja uporabnike, da menijo, da je bil problem pravilno rešen. Takšne zavajajoče trditve lahko vključujejo pojasnila ali izračune, ki so nerazumljivi ali nepomembni.

Ker ti jezikovni modeli še naprej blestijo na standardnih merilih, je očitno, da še vedno obstaja vrzel, ko gre za preprosto logično sklepanje – izziv, ki mu mora najnovejša AI še premagati. Izvirna raziskava je bila prvič objavljena na nemškem spletnem mestu pcgames.de.

Pomembna Vprašanja in Izzivi

Najpomembnejše vprašanje, ki se poraja iz teh ugotovitev, je, zakaj se napredni jezikovni modeli AI borijo s preprostimi logičnimi nalogami, medtem ko obdelujejo kompleksne vzorce in podatkovne nize? Glede na to, da so LLM-ji, kot je GPT-4, izurjeni na obsežnih korpusih, ki vključujejo logične uganke in probleme, ne bi bilo nerealno pričakovati, da bi ti modeli obvladovali osnovno logiko z več veščinami.

Eden od glavnih izzivov pri jezikovnem modeliranju AI je razlika med uspešnostjo na meritvah in obdelavo logike na način, ki je podoben človeku. Meritve so običajno zasnovane za oceno AI modelov pri različnih nalogah in nizih podatkov, vendar morda ne odražajo natančno sposobnosti AI za sklepanje ali razumevanje konteksta, kot bi to storil človek.

Spornosti

Spornost je v razhajanju med impresivnimi zmogljivostmi, ki jih hvalijo razvijalci AI, in očitnimi pomanjkljivostmi, ki so prikazane pri preprostih logičnih nalogah. Med javnostjo in raziskovalno skupnostjo za razvoj AI je vse večje dvomljivosti glede dejanskega razumevanja in sklepanja teh modelov.

Prednosti in Slabosti

Prednosti:
– Jezikovni modeli lahko hitro obdelajo in generirajo velike količine besedilnih informacij, prekašajoč človeško hitrost.
– Omogočajo avtomatizacijo nalog, kot so prevajanje jezika, ustvarjanje vsebine in podpora strankam, s čimer podjetjem prihranijo čas in vire.
– AI modeli lahko razkrijejo vzorce in vpoglede iz obsežnih nizov podatkov, ki jih ljudje morda spregledajo.

Slabosti:
– Pogosto se izkažejo za neuspešne pri nalogah, ki zahtevajo zdrav razum ali preprosto logično sklepanje, kar zavaja uporabnike.
– Njihovo napačno samozavest pri napačnih odgovorih predstavlja tveganja v aplikacijah, kjer je natančna informacija ključnega pomena, kot so medicinska ali pravna področja.
– Vrzel med AI usposobljenostjo pri meritvah in realnimi scenariji je lahko pomembna, kar vodi v nepravično zaupanje v njihove sposobnosti.

Za nadaljnje branje o razvoju in oceni AI jezikovnih modelov lahko izobraževalne in raziskovalne domene, kot je OpenAI, ki je razvil modele, kot je GPT, ponujajo vpogled v najnovejše dosežke v jezikovni obdelavi AI. Obiščete lahko spletno stran tukaj: OpenAI.

Nazadnje velja omeniti, da je nasloviti te izzive za izboljšanje usposobljenosti AI jezikovnih modelov za logično sklepanje še vedno aktivno in pomembno področje raziskav znotraj umetne inteligence.