Pokročilé jazykové modely AI mají potíže s jednoduchými logickými úkoly

Významná skupina mezinárodních výzkumníků nedávno zkoumala několik velkých jazykových modelů (LLM), jako jsou Llama 2, Gemini Pro, GPT-4 a Claude 3, aby porozuměli jejich výkonu při základních logických otázkách, na které lidé často snadno odpovídají. Úkol, který byl každému modelu předložen, byl přímočarý: pokud známe počet Aliceiných bratrů (N) a sester (M), kolik sester by měl bratr Alice? Ačkoli většina dospělých a někteří děti by možná okamžitě správně dedukovali odpověď – což zahrnuje sourozence a samotnou Alice, což naznačuje, že bratr by měl M+1 sestru – výsledky z AI modelů byly poněkud zklamávající.

Testování AI s Aliceinou rodinou

Výzva, na kterou odkazovali výzkumníci jako problém Alenka v říši divů (AIW), ukázala, že i když větší, hustší modely s parametry jako GPT-4 dosáhly lepších výsledků, dosáhly stále jen omezeného úspěchu. Dokonce i nejlepší model, GPT-4o, zvládl jen 65 % přesnost nejlépe. Ostatní modely, jako třeba Llama 2/3 od Meta, běžně nezvládaly úkol.

Různé nastavení, nekonzistentní výsledky

Studie používala tři typy pokynů, aby modely směrovala: standardní pokyn požadující řešení a jeho zdůvodnění, pokyn K úvaze, který je pobízel ke kontrole práce, a omezený formát, který vyžadoval pouze odpověď. Přes 30 pokusů na typ pokynu byly výsledky zaznamenány do tabulky, ilustrující příkrý rozdíl mezi vysokými výkony AI v běžných testech a slabšími výsledky AIW-testu.

S jistotou nesprávně

Jedno znepokojivé zjištění bylo, že modely, i přesto, že dělaly zjevné chyby, byly schopny přesvědčivě zdůvodnit své nesprávné odpovědi. Tento jev může uživatele zmást a přesvědčit je, že problém byl vyřešen správně. Takové klamavé tvrzení může zahrnovat vysvětlení nebo výpočty, které jsou nesmyslné nebo irelevantní.

Jelikož tyto jazykové modely nadále excelují v standardních testech, je zřejmé, že stále existuje mezera, pokud jde o jednoduché logické úsudky – výzva, kterou musí nejnovější AI překonat. Původní studie byla poprvé zpravodajsky zpracována na německém webu pcgames.de.

Důležité otázky a výzvy

Nejdůležitější otázkou, která vyplyne z těchto zjištění, je, proč se pokročilé jazykové modely AI potýkají s jednoduchými úkoly logického usuzování, když vymýšlejí složité vzory a sady dat? Vzhledem k tomu, že LLM jako GPT-4 jsou trénovány na rozsáhlých korpusťech, které zahrnují logické hlavolamy a problémy, by nebylo nespravedlivé očekávat, že tyto modely budou zvládat základní logiku s větší zběhlostí.

Jedním z klíčových výzev v jazykovém modelování AI je rozdíl mezi dobrým výkonem v testech a zpracováním logiky způsobem podobným člověku. Testy jsou obvykle navrženy k hodnocení AI modelů různých úkolů a datových sad, ale nemusí přesně odrážet schopnost AI uvažovat nebo chápat kontext stejně jako člověk.

Kontroverze

Polemika spočívá v rozporu mezi úžasnými schopnostmi, které jsou AI vývojáři chválni, a zjevnými nedostatky prokázanými při jednoduchých logických úkolech. V populaci a v obci vědeckých výzkumníků v oblasti AI roste skepticismus ohledně skutečného porozumění a schopností uvažování těchto modelů.

Výhody a nevýhody

Výhody:
– Jazykové modely mohou rychle zpracovávat a generovat velké objemy textových informací, překonávající lidskou rychlost.
– Umožňují automatizaci úkolů jako překlad jazyka, tvorbu obsahu a podporu zákazníků, což šetří podnikům čas a zdroje.
– AI modely jsou schopny odhalovat vzory a poznatky z rozsáhlých datových sad, které by lidé mohli přehlédnout.

Nevýhody:
– Mohou se často neúspěšně pokoušet o úkoly vyžadující zdravý rozum nebo jednoduché logické usuzování, což může zmást uživatele.
– Jejich chybná důvěra v nesprávné odpovědi představuje rizika v aplikacích, kde je přesná informace klíčová, jako je to v oblastech zdravotnictví nebo práva.
– Mezera mezi odborností AI v testech a reálnými scénáři může být významná, což vede k nesprávné důvěře v jejich schopnosti.

Pro další čtení o vývoji a hodnocení jazykových modelů AI, vzdělávací a výzkumné oblasti, jako je OpenAI, která vyvinula modely jako GPT, může nabídnout pohledy do stavu umělé inteligence v zpracování jazyka. Můžete navštívit webovou stránku zde: OpenAI.

Nakonec je třeba zmínit, že řešení těchto výzev k zlepšení odbornosti jazykových modelů AI v logickém usuzování je stále aktivním a významným výzkumným směrem v rámci umělé inteligence.