At tvinge AI til at kode: Nøglen til at udvikle store sprogmodeller

Mens generativ AI-teknologi hurtigt er avanceret i de seneste år, mener tidligere Salesforce direktør Richard Socher, at der stadig er plads til forbedring. I en podcast på Harvard Business Review diskuterede Socher, hvordan vi kan løfte store sprogmodeller ved at få dem til at reagere på kodningsopgaver i stedet for blot at forudsige næste token.

I øjeblikket er store sprogmodeller afhængige af at forudsige næste token baseret på tidligere data. Mens disse modeller demonstrerer imponerende læseforståelse og kodningsfærdigheder, lider de ofte af hallucinationer, hvor de producerer faktuelle fejl, som om de var sande. Dette bliver især problematisk, når de stilles over for komplekse matematiske spørgsmål.

Socher gav et eksempel på et spørgsmål, som en stor sprogmodel måske vil have svært ved: “Hvis jeg gav en baby 5.000 dollars ved fødslen til at investere i en fond uden gebyrer, og under antagelse af en bestemt procentdel af årlig afkast, hvor meget vil de have ved 2-5 års alderen?” I stedet for nøje at overveje spørgsmålet og udføre de nødvendige beregninger, ville modellen generere tekst baseret på lignende spørgsmål, den havde stødt på før.

For at overkomme denne begrænsning foreslår Socher at “tvinge” modellen til at oversætte spørgsmålet til computerkode og generere et svar baseret på denne kode. Ved at gøre dette er modellen mere tilbøjelig til at give et præcist svar. Socher nævnte, at de på hans AI-baserede søgemaskine, You.com, har kunnet oversætte spørgsmål til Python-kode.

I modsætning til den almindelige tilgang med blot at skalere data og beregningskraften, foreslår Socher, at programmering vil spille en afgørende rolle i udviklingen af store sprogmodeller. Ved at lære disse modeller at kode vil de opnå en dybere forståelse og mere alsidige problemløsningskompetencer. Denne programmeringsmetode vil muliggøre, at de kan tackle mere komplekse opgaver i fremtiden.

Mens konkurrencen blandt store sprogmodeller intensiveres med OpenAI’s GPT-4 og Googles Gemini, der kæmper om overherredømme, giver Sochers perspektiv en frisk vinkel på at udvikle AI-evner. I stedet for udelukkende at stole på skalering af data kan det at tvinge AI-modeller til at kode låse deres fulde potentiale op og føre til betydelige fremskridt på området.

Ofte stillede spørgsmål (FAQ) om forbedring af store sprogmodeller gennem kodning

Q: Hvad er udfordringen med de nuværende store sprogmodeller?
A: Nuværende store sprogmodeller har begrænsninger i at producere præcise svar, når de står over for komplekse spørgsmål, især dem, der kræver matematiske beregninger. De lider ofte af hallucinationer, hvor de genererer faktuelle fejl, som om de var sande.

Q: Hvad er den foreslåede løsning for at overvinde disse begrænsninger?
A: Richard Socher foreslår at “tvinge” store sprogmodeller til at oversætte spørgsmål til computerkode og generere svar baseret på denne kode. Ved at gøre det er modellerne mere tilbøjelige til at give præcise svar.

Q: Hvordan forbedrer oversættelse af spørgsmål til kode modellerne?
A: Ved at oversætte spørgsmål til kode hjælper modellerne med at opnå en dybere forståelse af spørgsmålene og gør dem i stand til at udføre de nødvendige beregninger. Denne tilgang forbedrer deres evne til at løse problemer og øger sandsynligheden for præcise svar.

Q: Er denne tilgang blevet implementeret i nogen AI-baseret søgemaskine?
A: Ja, hos You.com, en AI-baseret søgemaskine, har de med succes oversat spørgsmål til Python-kode for at forbedre præcisionen af svarene.

Q: Hvordan adskiller denne kodningsmetode sig fra den traditionelle tilgang med at skalere data og beregningskraft?
A: Socher foreslår, at det at lære store sprogmodeller at kode vil være afgørende for at udvikle deres evner, i stedet for blot at skalere data. Ved at programmere modellerne opnår de en dybere forståelse og mere alsidige problemløsningskompetencer til at tackle komplekse opgaver i fremtiden.

Q: Hvordan skiller Sochers perspektiv sig ud i konkurrencen mellem store sprogmodeller?
A: Sochers perspektiv introducerer en frisk vinkel på at udvikle AI-evner. I stedet for udelukkende at stole på skalering af data kan det at tvinge AI-modeller til at kode låse deres fulde potentiale op og føre til betydelige fremskridt på området.

Vigtige termer/fagudtryk:
– Generativ AI-teknologi: Henviser til AI-modeller, der er i stand til at producere originalt indhold ved at generere nye data baseret på mønstre og eksempler fra eksisterende data.
– Sprogmodeller: AI-modeller specifikt designet til at generere og forstå menneskesprog.
– Hallucinationer: I konteksten af AI-sprogmodeller henviser det til produktionen af faktuelle fejl, som om de var sande.
– Token: I sprogmodeller henviser en token til en tekstsegment, normalt et ord eller et tegn.
– Python-kode: Programmeringssprog, som Socher bruger som et eksempel på kodetranslation for at forbedre store sprogmodeller.

Foreslåede relaterede links:
OpenAI – officiel hjemmeside for OpenAI, kendt for deres store sprogmodeller som GPT-4.
Google – officiel hjemmeside for Google, virksomheden bag store sprogmodeller som Gemini.

The source of the article is from the blog macnifico.pt