Lisääntyneet tekoälykielet kamppailevat yksinkertaisten loogisten tehtävien kanssa

Kansainvälinen tutkijaryhmä tarkasteli äskettäin useita suuria kielimalleja (LLM), kuten Llama 2, Gemini Pro, GPT-4 ja Claude 3, ymmärtääkseen niiden suorituskyvyn perustavanlaatuisissa loogisissa kysymyksissä, joita ihmiset usein pitävät helppoina vastata. Jokaiselle mallille esitetty tehtävä oli suoraviivainen: annettuna Alicen veljien (N) ja sisarten (M) lukumäärä, kuinka monta sisarta Alicen veljellä olisi? Vaikka useimmat aikuiset ja joitakin lapsia saattavat heti päätellä oikean vastauksen – joka huomioi sisarukset ja itse Alicen, osoittaen, että hänen veljellään olisi M+1 sisarta – tekoälyn mallien tulokset olivat melko järkyttäviä.

AI-testaus Alicen perheellä

Haaste, jonka tutkijat nimittivät Alicen Ihmemaahan (AIW) -ongelmaksi, paljasti, että vaikka suuremmat, parametritiheämmät mallit kuten GPT-4 suoriutuivat paremmin, ne saavuttivat edelleen rajoitetun onnistumisasteen. Jopa paras malli, GPT-4o, saavutti parhaimmillaan vain 65% tarkkuuden. Muut mallit, mukaan lukien Meta:sta peräisin olevat Llama 2/3, epäonnistuivat säännöllisesti tehtävässä.

Erikoiset käskyt, epäjohdonmukaiset tulokset

Tutkimuksessa käytettiin kolmea tyyppiä ohjauksina malleille: standardi kysely, joka pyysi ratkaisua ja sen perustelua, Ajattelu-kysely kehottaen tarkistamaan työn uudelleen ja Rajoitettu Muoto-kysely, joka vaati vain vastauksen. 30 kokeilun per tyyppi tulokset koottiin taulukkoon, kuvaten AI:n korkean suorituskyvyn standardeihin vertautuen ja heikompaan suoritukseen AIW-testissä.

Varmoja väärässä

Yksi huolestuttava havainto oli, että mallit voivat vakuuttavasti perustella virheelliset vastauksensa näennäisen selvästi. Tämä ilmiö saattaa johtaa käyttäjiä harhaan uskomaan, että ongelma on ratkaistu oikein. Tällaiset harhaanjohtavat väitteet voivat sisältää selvityksiä tai laskelmia, jotka ovat epäjohdonmukaisia tai merkityksettömiä.

Kun nämä kielimallit jatkavat menestymistään standardoiduissa testeissä, on selvää, että edelleen on olemassa aukko, kun kyse on yksinkertaisesta loogisesta päättelystä – haaste, jota uusimman tekoälyn on vielä voitettava. Alkuperäinen tutkimus raportoitiin ensin saksalaisella sivustolla pcgames.de.

Tärkeitä kysymyksiä ja haasteita

Kaikkein oleellisin kysymys, joka nousee esiin näistä tuloksista, on miksi kehittyneet tekoälyn kielimallit kamppailevat yksinkertaisten loogisten päättelytehtävien kanssa, samalla kun ne pohtivat monimutkaisia kuvioita ja tietoaineistoja? Ottaen huomioon, että LLM-kuten GPT-4 on koulutettu laajoihin aineistoihin, jotka sisältävät loogisia pulmia ja ongelmia, ei olisi kohtuutonta odottaa näiden mallien käsittelevän peruslogiikkaa suuremmalla taidolla.

Yksi keskeinen haaste tekoälyn kielimallinnuksessa on ero hyvän suoriutumisen ja prosessoinnin välillä ihmismäisellä tavalla. Standardit on yleensä suunniteltu arvioimaan tekoälymalleja erilaisilla tehtävillä ja aineistoilla, mutta ne eivät välttämättä tarkasti heijasta tekoälyn kykyä päättää tai ymmärtää asiayhteyksiä niin kuin ihminen tekisi.

Kontroverssit

Kiistan ydin on ristiriidassa tekoälyn kehittäjien ylistettyjen kykyjen ja yksinkertaisten loogisten tehtävien selvien puutteiden välillä. Julkisuudessa ja tekoälytutkimusyhteisössä on kasvava epäusko varsinaiseen ymmärrykseen ja päättelykykyyn näiden mallien osalta.

Hyödyt ja Haitat

Hyödyt:
– Kielimallit voivat prosessoida ja luoda suuria määriä tekstiaineistoa nopeasti, ylittäen ihmisen nopeuden.
– Ne mahdollistavat tehtävien automatisoinnin, kuten kielikäännöksen, sisällöntuotannon ja asiakastuen, säästäen aikaa ja resursseja yrityksille.
– AI-mallit pystyvät löytämään kuvioita ja oivalluksia laajoista tietoaineistoista, joita ihmiset saattaisivat ohittaa.

Haitat:
– Ne saattavat epäonnistua tehtävissä, jotka vaativat tervejärkistä tai yksinkertaista loogista päättelyä, johtaen käyttäjiä harhaan.
– Niiden virheellinen varmuus vääristä vastauksista aiheuttaa riskejä sovelluksissa, joissa tarkka tieto on kriittistä, kuten lääketieteellisillä tai oikeudellisilla aloilla.
– Aukko tekoälyn pätevyydessä testitilanteissa ja todellisissa skenaarioissa voi olla merkittävä, johtaen väärään luottamukseen niiden kyvyistä.

Lisätietoa tekoälyn kielimallien kehityksestä ja arvioinnista voi löytyä OpenAI:n kaltaisista koulutus- ja tutkimusalueista, jotka ovat kehittäneet kuten GPT-mallit ja voivat tarjota näkemyksiä kieliprosessoinnin tekoälyn nykytilasta. Voit vierailla sivustolla täällä: OpenAI.

Viimeisenä on mainittava, että näiden haasteiden käsittely tekoälyn kielimallien kyvyssä loogiseen päättelyyn pysyy aktiivisena ja merkittävänä tutkimusalueena tekoälyssä.