Tvinga AI att koda: Nyckeln till att förbättra stora språkmodeller

Medan generativ AI-teknik har snabbt utvecklats de senaste åren tror den före detta Salesforce exekutiva Richard Socher att det fortfarande finns utrymme för förbättringar. I en Harvard Business Review podcast diskuterade Socher hur vi kan höja nivån på stora språkmodeller genom att få dem att svara på kodade frågor istället för att bara förutsäga nästa token.

För närvarande förlitar sig stora språkmodeller på att förutsäga nästa token baserat på tidigare data. Även om dessa modeller visar imponerande läsförståelse och kodningsfärdigheter lider de ofta av hallucinationer, där de producerar faktiska felaktigheter som om de vore sanna. Detta blir särskilt problematiskt när de står inför komplexa matematiska frågor.

Socher gav ett exempel på en fråga som en stor språkmodell kan ha svårt att hantera: ”Om jag ger en baby $5,000 vid födseln att investera i en indexfond utan avgifter och utgående från en viss procentandel av genomsnittlig årlig avkastning, hur mycket kommer de att ha vid åldrarna två till fem?” Istället för att noggrant överväga frågan och utföra nödvändiga beräkningar skulle modellen generera text baserat på liknande frågor den tidigare stött på.

För att övervinna denna begränsning föreslår Socher att ”tvinga” modellen att översätta frågan till datorprogrammeringskod och generera ett svar baserat på den koden. Genom att göra detta är det mer troligt att modellen ger en korrekt respons. Socher nämnde att på sin AI-drivna sökmotor, You.com, har de kunnat översätta frågor till Python-kod.

I motsats till det vanliga tillvägagångssättet med att bara skala upp data och beräkningskraft föreslår Socher att programmering kommer att spela en avgörande roll för att utveckla stora språkmodeller. Genom att lära dessa modeller att koda kommer de att få en djupare förståelse och mer mångsidiga problemlösningsförmågor. Denna programmeringsansats kommer att göra det möjligt för dem att ta itu med mer komplexa uppgifter i framtiden.

I takt med att konkurrensen bland stora språkmodeller intensifieras, med OpenAI’s GPT-4 och Googles Gemini som strävar efter överlägsenhet, ger Sochers perspektiv en ny infallsvinkel på att främja AI-förmågor. Istället för att enbart förlita sig på att skala upp data kan att tvinga AI-modeller att koda låsa upp deras fulla potential och leda till betydande framsteg inom området.

Vanliga frågor (FAQ) om förbättring av stora språkmodeller genom kodning

Q: Vad är utmaningen med nuvarande stora språkmodeller?
A: Nuvarande stora språkmodeller har begränsningar när det gäller att producera korrekta svar på komplexa frågor, särskilt de som kräver matematiska beräkningar. De lider ofta av hallucinationer, där de genererar faktiska felaktigheter som om de vore sanna.

Q: Vad är den föreslagna lösningen för att övervinna dessa begränsningar?
A: Richard Socher föreslår att ”tvinga” stora språkmodeller att översätta frågor till datorprogrammeringskod och generera svar baserat på den kodningen. Genom att göra detta är modellerna mer benägna att ge korrekta svar.

Q: Hur förbättrar översättning av frågor till kod modellerna?
A: Översättning av frågor till kod hjälper modellerna att få en djupare förståelse för frågorna och gör det möjligt för dem att utföra nödvändiga beräkningar. Detta tillvägagångssätt förbättrar deras problemlösningsförmågor och ökar sannolikheten för korrekta svar.

Q: Har detta tillvägagångssätt implementerats i någon AI-driven sökmotor?
A: Ja, på You.com, en AI-driven sökmotor, har de framgångsrikt översatt frågor till Python-kod för att förbättra svarsens noggrannhet.

Q: Hur skiljer sig denna programmeringsansats från det traditionella tillvägagångssättet med att skala upp data och beräkningskraft?
A: Socher föreslår att lära stora språkmodeller att koda kommer att vara avgörande för att utveckla deras förmågor, istället för att bara förlita sig på att skala upp data. Genom att programmera modellerna får de en djupare förståelse och mer mångsidiga problemlösningsförmågor för att ta itu med komplexa uppgifter i framtiden.

Q: Vad gör Sochers perspektiv unikt i konkurrensen bland stora språkmodeller?
A: Sochers perspektiv introducerar en ny infallsvinkel på att främja AI-förmågor. Istället för att enbart förlita sig på att skala upp data kan att tvinga AI-modeller att koda låsa upp deras fulla potential och leda till betydande framsteg inom området.

Nyckelbegrepp/jargong:
– Generativ AI-teknik: Hänvisar till AI-modeller som kan producera originalinnehåll genom att generera ny data baserat på mönster och exempel från befintliga data.
– Språkmodeller: AI-modeller som är specifikt utformade för att generera och förstå mänskligt språk.
– Hallucinationer: Inom AI-språkmodellers kontext hänvisar det till produktionen av faktiska felaktigheter som om de vore sanna.
– Token: I språkmodeller hänvisar en token till ett textsegment, vanligtvis ett ord eller en karaktär.
– Python-kod: Programmeringsspråk som Socher använder som exempel på kodöversättning för att förbättra stora språkmodeller.

Föreslagna relaterade länkar:
OpenAI – officiell webbplats för OpenAI, kända för sina stora språkmodeller som GPT-4.
Google – officiell webbplats för Google, företaget bakom stora språkmodeller som Gemini.

The source of the article is from the blog reporterosdelsur.com.mx