Нов метод за удължаване дължината на контекста в големи модели на език

Изследователи са открили проблем с големите модели на език (ГМЕ) и техните способности да се справят с дълги контексти поради ограничената им дължина на прозореца. Въпреки че финото настройване може да удължи дължината на контекстния прозорец, то идва с голяма цена във времето за обучение и извод. Това има отрицателен ефект върху основните способности на ГМЕ.

За да решат този проблем, екип от изследователи от Пекинската академия по изкуствен интелект, Факултета по изкуствен интелект на Гаолинг и университета „Ренмин“ в Китай е предложил нов метод наименуван Активационен бикон. Този метод има за цел да удължи контекстната дължина на предварително обучени ГМЕ, без да компрометира техните съществуващи възможности.

Активационният бикон работи чрез сгъстяване на суровите активации на ГМЕ с минимална загуба на информация. Тази сгъстена форма позволява на ГМЕ да улови по-широк контекст в рамките на кратко време. Той използва специални токени, наречени бикони, за да постигне тази сгъстяваща съотношение. Биконите използват три методи за внимание, като стъпковото разширяване е най-ефективното. Чрез комбиниране на сгъстени и сурови активации в прелистващи се прозорци, Активационен бикон предсказва следващия токен ефективно, позволявайки на ГМЕ да обработва дълга контекстна информация, без да жертва способността си да обработва по-кратки контексти.

Експерименталните резултати показват, че Активационният бикон представлява по-добро решение от съществуващите методи за удължаване на контекста в ГМЕ. Той постига сравними или по-добри резултати от методите за фини настройки с пълно внимание, запазвайки по-висока ефективност. Активационният бикон е бил тестван на различни задачи и показва своята ефективност в разнообразни реални приложения.

Като цяло, Активационният бикон представлява нискотоценно и ефективно решение за удължаване на контекста в ГМЕ. Този нов метод има потенциал да значително подобри възможностите на големите модели на език и да ги прави способни да справя се по-дълги контексти ефективно. Допълнителни изследвания и развитие в тази област биха могли да доведат до значителни напредъци в обработката и разбирането на естествения език.

The source of the article is from the blog scimag.news

Web Story

Privacy policy
Contact