Chatbottien pitkien keskustelujen tehostaminen: Suorituskyvyn ja nopeuden ylläpitäminen

Tutkijat MIT:stä ovat mullistaneet chatbottien maailman ratkaisulla, joka varmistaa chatbottien suorituskyvyn säilymisen pitkien keskustelujen aikana. Perinteinen ongelma chatbottien kanssa on se, että mitä pidempään keskustelu kestää, sitä huonompia niiden vastaukset yleensä ovat. Kuitenkin MIT:n StreamingLLM-kehys tuo uuden lähestymistavan keskustelun muistinä toimivaan avain-arvo (KV) välimuistiin, joka toimii keskustelumuistina.

Chatbotit tuottavat vastauksia käyttäjän syötteiden perusteella ja tallentavat ne KV-välimuistiin. Haasteena on, kun välimuisti saavuttaa kapasiteettinsa ja on poistettava vanhempaa tietoa. MIT:n ratkaisu nimeltään Sliding Cache, keskittyy tärkeän tiedon säilyttämiseen ja poistaa vähemmän tärkeää tietoa. Tämä mahdollistaa chatbotin suorituskyvyn säilymisen ja pitkien keskustelujen käymisen pysymällä korkealaatuisena.

StreamingLLM-kehikon avulla mallit kuten Llama 2 ja Falcon saavuttivat vakaan suorituskyvyn jopa yli neljän miljoonan tokenin mittaisissa keskusteluissa. Suorituskyvyn vakauden lisäksi tämä menetelmä paransi merkittävästi vastausaikaa, mahdollistaen mallien palauttaa vastauksia yli 22 kertaa nopeammin kuin aiemmin.

Tutkijat huomasivat, että keskustelun alkuperäiset syötteet ovat ratkaisevia chatbotin suorituskyvylle. Jos näitä syötteitä ei säilytetä välimuistissa, malli kamppailee pidemmissä keskusteluissa. Tätä ilmiötä, jota kutsutaan ”attention sinkiksi”, johti tiimi määrittelemään ensimmäisen tokenin attention sinkiksi, varmistaen sen jatkuvan läsnäolon välimuistissa.

Vaikka neljän alkuperäisen tokenin kynnysarvo esti suorituskyvyn heikkenemisen, tiimi löysi myös, että välitystilalokenin lisääminen omistettuna attention sinkinä esikoulutuksen aikana paransi käyttöönottoa ja kokonaissuorituskykyä entisestään.

Kyky ylläpitää chatbottien suorituskykyä ja nopeutta pitkien keskustelujen aikana avaa laajan kirjon sovellusmahdollisuuksia. StreamingLLM-paperin pääkirjoittaja Guangxuan Xiao on innoissaan näiden parannettujen chatbottien potentiaalisesta käytöstä erilaisissa uusissa sovelluksissa.

StreamingLLM-kehys on saatavilla Nvidian suuren kielioppimallinnuksen kirjaston, TensorRT-LLM:n, kautta. Tämä läpimurto lähentää meitä askelen lähemmäksi chatbotteja, jotka voivat käydä laajoja ja merkityksellisiä keskusteluja käyttäjien kanssa tinkimättä suorituskyvystään.

UKK – MIT:n StreamingLLM-kehys: Chatbottien suorituskyvyn vallankumous

1. Mikä on perinteisten chatbottien pääongelma pitkissä keskusteluissa?
Perinteiset chatbotit eivät yleensä pysty ylläpitämään laadukkaita vastauksia, kun keskustelut venyvät pitkiksi.

2. Miten MIT:n StreamingLLM-kehys ratkaisee tämän ongelman?
MIT:n ratkaisu nimeltään Sliding Cache tuo uuden lähestymistavan keskustelun muistina toimivaan avain-arvo (KV) välimuistiin. Se keskittyy tärkeän tiedon säilyttämiseen ja hylkää vähemmän tärkeän tiedon, jolloin chatbotit voivat ylläpitää suorituskykyään ja osallistua pitkiin keskusteluihin tinkimättä laadusta.

3. Miten KV-välimuisti vaikuttaa chatbotin suorituskykyyn?
Chatbotit tuottavat vastauksia käyttäjän syötteiden perusteella, jotka tallennetaan KV-välimuistiin keskustelumuistina.

4. Miten StreamingLLM-kehys parantaa chatbotin suorituskykyä?
StreamingLLM-kehys, käyttäen malleja kuten Llama 2 ja Falcon, saavuttaa vakaa suorituskyvyn jopa yli neljän miljoonan tokenin mittaisissa keskusteluissa. Lisäksi se parantaa vastausaikaa, jolloin mallit pystyvät palauttamaan vastauksia yli 22 kertaa nopeammin.

5. Miksi alkuperäiset syötteet ovat tärkeitä chatbotin suorituskyvylle?
Tutkijat havaitsivat, että alkuperäiset syötteet ovat ratkaisevia chatbotin suorituskyvylle. Jos näitä syötteitä ei säilytetä välimuistissa, malli ei pärjää pidemmissä keskusteluissa. Tätä ilmiötä, jota kutsutaan ”attention sinkiksi”, johdatti ensimmäisen tokenin määrittäminen attention sinkiksi, varmistaen sen jatkuvan läsnäolon välimuistissa.

6. Mistä hyöty on välitystilalogin lisäämisestä esikoulutuksen aikana?
Alkuperäisten tokenien lisäksi välitystilalogin lisääminen esikoulutuksen aikana parantaa chatbotin käyttöönottoa ja kokonaissuorituskykyä.

7. Missä StreamingLLM-kehys on saatavilla?
StreamingLLM-kehys on saatavilla Nvidian suuren kielioppimallinnuksen kirjaston, TensorRT-LLM:n, kautta.

8. Mitkä ovat parannetun chatbotin suorituskyvyn mahdollisia sovellusalueita?
Kyky ylläpitää chatbotin suorituskykyä ja nopeutta pitkissä keskusteluissa avaa laajan kirjon sovellusmahdollisuuksia. StreamingLLM-paperin pääkirjoittaja on innoissaan näiden parannettujen chatbottien mahdollisesta käytöstä erilaisissa uusissa sovelluksissa.

Avainsanat:
– StreamingLLM-kehys: MIT:n tutkijoiden kehittämä ratkaisu, joka varmistaa chatbottien suorituskyvyn säilymisen pitkissä keskusteluissa.
– Avain-arvo (KV) välimuisti: Keskustelumuisti, jossa chatbotit tallentavat käyttäjän syötteitä ja tuottavat vastauksia.
– Sliding Cache: MIT:n ratkaisu, jossa keskitytään tärkeiden tietojen säilyttämiseen ja vähemmän tärkeän tiedon hylkäämiseen KV-välimuistissa.
– Llama 2 ja Falcon: Mallit, joita käytetään StreamingLLM-kehikossa saavuttaakseen vakaan chatbotin suorituskyvyn.
– Attention sinkki: Ilmiö, jossa chatbotin suorituskyky kärsii pidemmissä keskusteluissa, jos alkuperäisiä syötteitä ei säilytetä välimuistissa.

Lisätietoja:
Nvidia

The source of the article is from the blog trebujena.net