Pažangos dirbtinio intelekto testavime

Mokslininkai atliko revoliucinį tyrimą, įvertindami dirbtinio intelekto galimybes per sąveikas. Vietoj tradicinio Turingo testo, siūlomo Alan Turingo 1950 m., kuris vertina mašinos gebėjimą parodyti žmogiško lygio intelektą, šis tyrimas įvedė modernų požiūrį.

Įvairių grupių 500 dalyvių su penkių minučių pokalbiais dalyvavo su keturiais respondentai: žmogumi, 1960-ųjų ELIZA AI programa ir pažangesniais AI modeliais GPT-3.5 ir GPT-4, pagrindu ChatGPT. Po sąveikų dalyviai buvo paprašyti nustatyti, ar jie bendravo su žmogumi ar dirbtiniu intelektu.

Rezultatai, paskelbti gegužės 9 d. arXiv išankstinėje serveryje, atskleidė reikšmingą požiūrio pokytį. Dalyviai manė, kad 54% santykių metu GPT-4 yra žmogus, atskleisdami modelio išskirtinį pokalbių gebėjimą.

Priešingai, ELIZA, sistema su iš anksto įkrautais atsakymais, bet neturinti didelio kalbos modelio ar neuroninio tinklo architektūros, dalyviai teisingai nustatė tik 22% laiko. GPT-3.5 pasiekė pripažinimo lygį 50%, panašiai kaip žmogaus dalyvavimas, kuris pasiekė aukščiausią 67% tikslumą.

Papildomi faktai:
– Per pastaruosius metus dirbtinio intelekto testavimo srityje pasiekti reikšmingi pažangos lygiai, ypač tobulinant sudėtingesnius AI modelius su patobulintomis natūralios kalbos apdorojimo ir supratimo galimybėmis.
– Viena iš pagrindinių pažangos sričių yra AI algoritmų tobulinimas, siekiant pagerinti pokalbių gebėjimus ir imituoti panašias į žmogiškas sąveikas, kaip rodo tyrimai, vertinantys AI veiklą dialoguose ir pokalbiuose.
– Įvairios pramonės sritys, įskaitant technologijas, sveikatą, finansus ir pramogas, vis dažniau naudoja AI testavimo metodiką, siekiant pagerinti produktų kokybę, efektyvumą ir naudotojų patirtis.

Svarbiausios klausimai:
1. Kaip dirbtinio intelekto testavimo pažangos gali paveikti AI paremtų programų plėtrą ir įgyvendinimą realiame pasaulyje?
2. Kokias etines svarstymus būtina įvertinti, vykdant eksperimentus, kuriais vertinamos AI galimybės per sąveikas?
3. Kokie gali būti AI modelių, pasiekiančių žmogiško lygio pokalbių gebėjimus, įtakos visuomenei ir tarpasmeninėms sąveikoms, potencialūs padariniai?

Pagrindinės iššūkiai ir kontroversijos:
– Interpretacijos iškreipimas: Nustatant kriterijus, pagal kuriuos vertinamas AI sąveikų sėkmės laipsnis, ir dalyvių AI sistemų suvokimo iškreipimo galimybės nustatymas.
– Duomenų privatumas ir saugumas: Užtikrinant jautrių duomenų, dalijamų per AI sąveikas apsaugą, ir spręsdama problemas, susijusias su duomenų nutekėjimais ar neteisingu naudojimu.
– Algoritmų skaidrumas: Spręsti dėl AI modelių skaidrumo trūkumo ir suvokti, su kokiomis iššūkių yra susiję sprendimų priėmimas pokalbių metu.