Metode for å utvide kontekstlengden i store språkmodeller

Forskarar har identifisert eit problem med store språkmodeller (SSM) og deira evne til å handtere lange kontekstar på grunn av den avgrensa vinduslengden deira. Sjølv om finjustering kan utvide kontekstvinduets lengde, kjem det med ein betydeleg kostnad når det gjeld trening og inferensetid. Dette har ein negativ effekt på SSMs kjernefunksjoner.

For å løysa dette problemet, har eit forskarteam frå Beijing Academy of Artificial Intelligence, Gaoling School of Artificial Intelligence og Renmin University of China foreslått ein ny metode kalla «Activation Beacon». Denne metoden har som mål å utvide kontekstlengden til førehandsopplærte SSMer utan å svekke dei eksisterande funksjonane.

Aktiveringsbeacon fungerer ved å kondensera dei rå aktiveringane til SSMen med minimal tap av informasjon. Denne kondenserte forma gjer at SSMen kan forstå ein breiare kontekst innanfor eit kort vindu. Den nyttar spesielle token kalla beacons for å oppnå denne kondenseringsforholdet. Beacons brukar tre merksemsordningar, der stegvis utviding er den mest effektive. Ved å kombinera kondenserte og rå aktiveringar i glidande vindu, kan aktiveringsbeaconet effektivt forutsjå neste token og gjera det mogleg for SSMen å handtere lang kontekstinformasjon utan å ofra evna til å handtere kortare kontekstar.

Eksperimentelle resultat har vist at aktiveringsbeaconet presterte betre enn eksisterande metodar for å utvide kontekstlengden i SSMer. Det oppnår sammenlignbar eller betre ytelse enn finjusterte fullmerksemsmetodar, samtidig som det har høgare effektivitet. Aktiveringsbeaconet har blitt testa på ulike oppgåver og viser si effektivitet i ulike reelle bruksområde.

Alt i alt tilbyr aktiveringsbeaconet ein lågkost- og effektiv løysing for å utvide kontekstlengden til SSMer. Denne nye metoden har potensial til å betydeleg forbetra funksjonane til store språkmodeller og gjera dei i stand til å handtere lengre kontekstar effektivt. Vidare forsking og utvikling på dette området kan føra til betydelege framsteg innan naturleg språkbehandling og forståing.

The source of the article is from the blog elperiodicodearanjuez.es

Web Story

Privacy policy
Contact