Forskare avfärdar teorin om plötslig uppkomst av avancerade AI-färdigheter

Framsteg i språkmodeller visar förutsägbara förbättringar

Ett betydande projekt, kallat ”Beyond the Imitation Game benchmark” (BIG-bench), ägde rum för två år sedan med ett team på 450 forskare som listade 204 uppgifter för att testa prestandan hos stora språkmodeller (LLM), såsom de som används i ChatGPT. Resultatet av deras studie föreslog en gradvis förbättring i prestanda när modellernas storlek ökade.

Ojämn prestanda i AI-modeller: Ett mätproblematik?

Även om modellernas expansion vanligtvis korrelerade med prestandaökningar följde inte alla uppgifter denna trend. Vissa uppgifter som tidigare knappt visade någon kapacitetsförbättring visade plötsligt betydande framsteg. Denna fenomen av oväntade förbättringar i förmåga döptes av forskarna till ”genombrottsbeteende” och liknades vid fysiska fasövergångar, såsom vatten som omvandlas till is, av andra. I en artikel publicerad i augusti 2022 underströk forskarna betydelsen av detta ’emergenta beteende’ i diskussioner om AI-säkerhet, möjligheter och risker.

Stanford ifrågasätter perspektivet på AI:s ”emergenta” förmågor

Emellertid argumenterar mer aktuella resultat från ett team av forskare från Stanford University mot de tidigare bedömningarna. De hävdar att de synbart plötsliga manifestationerna av dessa förmågor kanske enbart är en fråga om mätning. De hävdar att prestandan hos LLM inte är oförutsägbar eller omedelbar utan snarare mer förutsägbar än tidigare antaget. Forskarna hävdar att metoderna som används för att mäta prestanda är lika inflytelserika som modellernas kapacitet i sig.

Prestandaökning visar sig vara mer gradvis än ”emergent”

Stora språkmodeller har endast blivit en primär fokus efter att ha skalats till verkligt betydande storlekar. När dessa modeller tränas på massiva textkorpora, inklusive böcker, websökningar och Wikipedia, utvecklar de intrikata kopplingar mellan ord som vanligtvis används i liknande sammanhang. Det är dessa kopplingar som avgör deras prestanda i olika uppgifter. Stanford-forskarna erkänner effektivitetsförbättringen som följer av skalningen men hävdar att denna förbättring inte alltid är omedelbar eller emergent; den kan snarare bero på valet av prestandamått eller otillräcklig utvärdering.

Metodologisk förändring ger ny inblick i AI-förmågor

Denna förändring i forskningsmetodologi har framkallat nya insikter, vilket har lett Stanford-teamet att revidera sättet prestanda utvärderas. Genom att inkludera partiell korrekthet i utvärderingen visade de att en ökning av modellparametrar leder till en gradvis och förutsägbar förbättring i antalet siffror som en LLM kan förutsäga korrekt, snarare än ett emergent språng. Även om vissa forskare fortfarande argumenterar för oförutsägbarheten hos vissa förmågor vid vissa trösklar, indikerar Stanford-studien att korrekta mått kan ge en annan bild av LLM:s förmågor.

Viktiga förtydliganden om ämnet

Framsteg inom artificiell intelligens (AI), särskilt inom kontexten för stora språkmodeller (LLM) som ChatGPT, har implikationer för många branscher och vår förståelse av AI-utvecklingen. Två viktiga frågor inom detta område är:

1. Är utvecklingen av AI-förmågor gradvis eller kan den innefatta plötsliga, emergenta språng?
Stanford-forskarna utmanar teorin om emergenta språng i AI-förmågor och hävdar istället att med bättre utvärderingsmetoder verkar dessa framsteg vara gradvisa och förutsägbara.

2. Vilka är de viktigaste utmaningarna eller kontroverserna förknippade med att mäta AI-framsteg?
Det pågår debatter om lämpliga metriker för att utvärdera prestandan hos LLM och om dessa modeller verkligen kan uppvisa emergent beteende.

Ämnet innefattar vissa fördelar och nackdelar:

Fördelar:
– Förbättring av utvärderingsmetoder leder till en mer exakt förståelse av AI-utvecklingen.
– Förutsägbara förbättringar möjliggör bättre planering och integration av AI-system i olika tillämpningar.
– Det stödjer en mer nyanserad diskussion om AI-säkerhet genom att avfärda myten om plötsliga, okontrollerbara toppar i AI-förmågor.

Nackdelar:
– Överdriven fokus på gradvisförlopp kan nedvärdera fall där AI-förmågor faktiskt uppvisar oväntade hopp.
– Förlitandet på prestandamätningar kanske inte fångar hela omfånget av en AIs förmågor eller begränsningar.
– Debatten kan leda till förvirring bland intressenter angående AI:s mognad eller risker, vilket påverkar finansierings- och regleringsbeslut.

För ytterligare utforskning av AI-framsteg och kontroverser kan du besöka webbplatserna för Stanford University, där mycket av forskningen som ifrågasätter teorin om plötsliga framträdanden genomfördes, eller undersöka Machine Intelligence Research Institute (MIRI), som fokuserar på AI-säkerhet och förmågor. Se alltid till att webbadressen är korrekt innan du besöker en webbplats.

The source of the article is from the blog portaldoriograndense.com