Kuidas suured keelemudelid lihtsaid funktsioone kasutavad

MIT teadlased ja teised institutsioonid on teinud huvitava avastuse suurte keelemudelite (LLM) kohta, mida kasutatakse näiteks populaarsetes tehisintellekti vestlusrobotites nagu ChatGPT. Need mudelid, mis on uskumatult keerukad, suudavad sageli salvestatud teadmisi taastada ja dešifreerida kasutades väga lihtsaid lineaarseid funktsioone. See leid valgustab nende mudelite tööpõhimõtteid ning võib omada tähtsust nende täpsuse parandamisel.

Teadlased arendasid tehnikaid lineaarsete funktsioonide tuvastamiseks erinevat tüüpi faktidele, mis on salvestatud LLM-idesse. Nende funktsioonide uurimisel saadi aimu, mida mudel erinevatest teemadest teab ja kus see teave mudelis salvestatud on. Nad leidsid, et isegi kui mudel annab vale vastuse juhisele, on tal sageli õige teave salvestatud. See viitab sellele, et neid lihtsaid funktsioone võiks potentsiaalselt kasutada valeinfo tuvastamiseks ja parandamiseks mudelis, vähendades valede või mõttetute vastuste tõenäosust.

Kuigi kõiki fakte ei kodeerita ega taastata lineaarsel viisil, pakub nende lihtsate funktsioonide avastamine väärtuslikku vahendit suurte keelemudelite sisemise toimimise mõistmiseks. Teadlased arendasid ka visualiseerimistehnikat nimega “atribuudi lääts”, et kaardistada, kus konkreetsed teabeosad seoste kohta mudeli kihtides asuvad. See visualiseerimisvahend aitab teadlastel ja inseneridel paremini aru saada mudeli struktuurist ja võimalikest ebatäpsustest.

Tulevikus kavatsevad teadlased uurida, kuidas faktid on salvestatud, kui need ei järgi lineaarseid mustreid. Samuti plaanivad nad läbi viia katseid suuremate keelemudelitega, et näha, kas need lihtsad funktsioonid kehtivad suuremal skaalal. See uurimus võib täiustada meie arusaamist keelemudelitest ning parandada nende jõudlust erinevates valdkondades.

Korduma Kippuvad Küsimused (KKK)

K: Mis on suured keelemudelid?
V: Suured keelemudelid, tuntud ka kui transformer mudelid, on tehisintellekti mudelid, mis töötlevad ja mõistavad inimkeelt. Need on eriti kasulikud ülesannetes nagu klienditugi, koodigeneratsioon ja keele tõlge.

K: Kuidas uurijad sondivad suuri keelemudeleid?
V: Uurijad kasutavad tehnikaid, et avastada mehhanisme, kuidas suured keelemudelid salvestavad ja dešifreerivad oma teadmisi. Selles uuringus tuvastasid ja uurisid teadlased lihtsaid lineaarseid funktsioone, mida need mudelid sageli faktide taastamiseks kasutavad.

K: Kuidas see uurimus võib aidata parandada keelemudelite täpsust?
V: Mõistes keelemudelite teadmiste taastamiseks kasutatavaid lihtsaid funktsioone, saavad teadlased potentsiaalselt tuvastada ja parandada valeinfot, mis on mudelites salvestatud. See võiks vähendada olukordi, kus tehisintellekti vestlusrobotid pakuvad vale või mõttetut vastust.

K: Mis on “atribuudi lääts”?
V: “Atribuudi lääts” on visualiseerimisvahend, mille arendasid teadlased, et kaardistada, kus konkreetsed teabeosad seoste kohta on salvestatud keelemudeli kihtides. See tööriist aitab teadlastel ja inseneridel paremini mõista mudeli teadmisi.

K: Mis on selle uuringu tuleviku suunad?
V: Teadlased kavatsevad süveneda sellesse, kuidas faktid on salvestatud, kui need ei järgi lineaarseid mustreid. Samuti kavatsevad nad teha katseid suuremate keelemudelitega, et kinnitada nende avastuste kehtivust suuremal skaalal.

Allikad:
– MIT Uudised: [https://news.mit.edu/2021/artificial-intelligence-linguistics-0506](https://news.mit.edu/2021/artificial-intelligence-linguistics-0506)

The source of the article is from the blog zaman.co.at