Tyro atrandama paprastos funkcijos sudėtingose kalbos modeliuose

Tyrimai, kuriuos atliko MIT ir kiti institutai, atskleidė įdomų faktą apie didelius kalbos modelius (LLM), tokius kaip populiarios dirbtinio intelekto pokalbių robotai ChatGPT. Šie modeliai, kurie yra neįtikėtinai sudėtingi, dažnai gali atstatyti ir iškoduoti įrašytą žinią, naudodami labai paprastą tiesinę funkciją. Šis atradimas apšviečia, kaip veikia šie modeliai, ir galėtų turėti pasekmių pagerinant jų tikslumą.

Mokslininkai sukūrė techniką, kurią naudoja, kad nustatytų tiesines funkcijas skirtingų tipų faktams, laikymui kalbos modeliuose. Ištyrę šias funkcijas, jie sugebėjo įgyti supratimą, ką modelis žino apie įvairius dalykus ir kur ši informacija yra laikoma modele. Jie nustatė, kad netgi tada, kai modelis teikia neteisingą atsakymą į užklausą, jis dažnai vis tiek turi tinkamą informaciją laikomoje. Tai rodo, kad šias paprastas funkcijas galima galėtų panaudoti identifikuoti ir ištaisyti netikrąsias teiginius modelyje, mažinant nekorektiškų ar nonsensinių atsakymų tikimybę.

Nors ne visi faktai yra koduojami ir atkeliavimui tiesioginiu būdu, tokiame, atradlyje paprastų funkcijų suteikimas svarbi priemonė suprasti didelių kalbos modelių vidaus veikimą. Mokslininkai taip pat sukūrė vizualizavimo techniką, pavadintą „atributo lempa“, norėdami nurodyti, kur laikoma specifinė informacija apie santykius, išsaugota modelio sluoksniuose. Ši vizualizavimo priemonė gali padėti mokslininkams ir inžinieriams geriau suprasti modelį ir potencialiai ištaisyti bet kokius netikslumus.

Ateinančiu metu, mokslininkai tiki toliau tiriant, kaip faktai yra laikomi, kai jie nekelia tiesioginio pavyzdžio. Be to, jie planuoja atlikti eksperimentus su didesniais kalbos modeliais, siekiant patikrinti, ar šios paprastos funkcijos galioja didesnėje masto. Šie tyrimai gali pagerinti mūsų supratimą apie kalbos modelius ir pagerinti jų veiklą įvairiose srityse.

DUK (Dazniausiai Uzdavinami Klausiymai)

Q: Kas yra dideli kalbos modeliai?
A: Dideli kalbos modeliai, taip pat žinomi kaip transformerių modeliai, yra dirbtinio intelekto modeliai, kurie apdoroja ir supranta žmogaus kalbą. Jie yra ypatingai naudingi užduotims, tokioms kaip klientų aptarnavimas, kodo generavimas ir kalbų vertimas.

Q: Kaip mokslininkai tyrimo didelius kalbos modelius?
A: Mokslininkai naudoja technikas atskleisti mechanizmus, kaip didelieji kalbos modeliai gauna ir dekoduoja įrašytą žinią. Šiame tyrime mokslininkai nustatė ir ištyrė paprastas tiesines funkcijas, kurias šie modeliai dažnai naudoja atkurti faktus.

Q: Kaip šis tyrimas gali padėti pagerinti kalbos modelių tikslumą?
A: Suprasdamas paprastas funkcijas, naudojamas kalbos modeliais, kad atkurtų faktus, mokslininkai galėtų potencialiai identifikuoti ir ištaisyti klaidingą informaciją, laikomą modelyje. Tai galėtų sumažinti neteisingų ar nonsensinių atsakymų, kuriuos suteikia AI robotai pokalbiams.

Q: Kas yra „atributo lempa“?
A: „Atributo lempa“ yra vizualizavimo priemonė, kurią sukūrė mokslininkai, kad nurodytų, kur laikoma specifinė informacija apie santykius, yra laikoma kalbos modelio sluoksniuose. Ši priemonė padeda mokslininkams ir inžinieriams geriau suprasti modelio žinojimą.

Q: Kokie yra šio tyrimo ateities tyrimų kryptys?
A: Mokslininkai planuoja toliau ištirti, kaip faktai yra laikomi, kai jie nesilaiko tiesinių modelių. Jie taip pat ketina atlikti eksperimentus su didelais kalbos modeliais, kad patvirtintų savo išvadas didesniu mastu.

Šaltinis:
– MIT Naujienos: [news.mit.edu](https://news.mit.edu/2021/artificial-intelligence-linguistics-0506)

The source of the article is from the blog girabetim.com.br