Nieuwe Techniek Ontgrendelt het Potentieel van Grote Taalmodellen

Een team van onderzoekers heeft een doorbraak bereikt op het gebied van natuurlijke taalverwerking (NLP) door het introduceren van een nieuwe techniek na vooraf het trainen van Grote Taalmodellen (LLMs). Deze nieuwe techniek, genaamd blokuitbreiding, maakt het mogelijk om domeinspecifieke kennis te integreren zonder afbreuk te doen aan de algehele mogelijkheden van de modellen.

Het probleem met LLMs is dat hoewel ze uitblinken in verschillende taken, hun prestaties beperkt zijn in domeinen zoals programmeren, wiskunde, biomedische wetenschappen en financiën. De huidige methode van domein-aangepast vooraf trainen verbetert de modellen, maar leidt tot catastrofale vergetelheid, waardoor de algemene mogelijkheden van het model achteruitgaan.

Om deze beperking te overwinnen, hebben de onderzoekers blokuitbreiding voorgesteld, waarbij Transformer-blokken in de LLMs worden uitgebreid. Door duplicaat Transformer-blokken toe te voegen, kan domeinspecifieke informatie effectief geïntegreerd worden in de vooraf getrainde modellen. De bestaande blokken blijven bevroren, terwijl de nieuw ingevoegde blokken worden fijngesteld met behulp van domeinspecifieke corpora.

Deze techniek zorgt ervoor dat het model zijn algemene mogelijkheden behoudt, terwijl het ook specifieke kennis verwerft die relevant is voor het domein. De onderzoekers hebben de effectiviteit van blokuitbreiding aangetoond door het ontwikkelen van het LLAMA PRO-8.3B-model, dat uitstekende prestaties levert in algemene taken, programmeren en wiskunde.

De LLAMA PRO-familie, inclusief de instructievolgende variant LLAMA PRO – INSTRUCT, heeft een superieure prestatie laten zien in vergelijking met bestaande modellen in de LLaMA-familie. Deze modellen vertoonden veel potentieel bij het redeneren en het omgaan met verschillende taken als intelligente agenten.

De belangrijkste bijdragen van deze studie omvatten het introduceren van de blokuitbreidingstechniek voor LLMs, waarmee nieuwe informatie geïncorporeerd kan worden zonder dat dit ten koste gaat van bestaande mogelijkheden. Daarnaast combineren de flexibele LLAMA PRO-modellen naadloos programmeren en natuurlijke talen, en blinken uit in zowel algemene als domein-specifieke taken.

De onderzoekers hebben de LLAMA PRO-familie uitgebreid getest op verschillende datasets, waarbij ze de aanpasbaarheid en potentie hebben aangetoond bij het omgaan met complexe toepassingen. Deze studie biedt waardevolle inzichten in de interactie tussen programmeren en natuurlijke talen en legt de basis voor de ontwikkeling van meer flexibele en krachtige taalmodellen.

Tot slot zorgt de blokuitbreidingstechniek voor een revolutie in de mogelijkheden van LLMs, waardoor ze krachtige taalagenten worden die effectief kunnen functioneren in verschillende domeinen. De bevindingen van dit onderzoek benadrukken het belang van het overwinnen van de beperkingen van LLMs en openen spannende mogelijkheden voor de toekomst van natuurlijke taalverwerking.

The source of the article is from the blog qhubo.com.ni