Новый метод увеличения длины контекста в больших моделях языка

Исследователи выявили проблему в работе больших моделей языка (LLM) и их способности обрабатывать длинные контексты из-за ограниченной длины окна. Хотя настройка модели может увеличить длину контекстного окна, это сопряжено с значительными затратами времени на обучение и вывод. Это негативно сказывается на основных возможностях LLM.

Для решения этой проблемы группа исследователей из Пекинской академии искусственного интеллекта, Гаолинской школы искусственного интеллекта и Ренминского университета Китая предложила новый метод, названный Activation Beacon. Этот метод призван увеличить длину контекста предварительно обученных LLM без ущерба для их текущих возможностей.

Activation Beacon работает путем сжатия сырых активаций LLM с минимальной потерей информации. Эта сжатая форма позволяет LLM понимать более широкий контекст в пределах небольшого окна. Он использует специальные токены, называемые маяками, для достижения этого коэффициента сжатия. Маяки используют три схемы внимания, причем пошаговое расширение является наиболее эффективным. Комбинируя сжатые и сырые активации в скользящих окнах, Activation Beacon эффективно предсказывает следующий токен, позволяя LLM обрабатывать длинную контекстную информацию, не теряя способность обрабатывать более короткие контексты.

Экспериментальные результаты показали, что Activation Beacon превосходит существующие методы увеличения длины контекста в LLM. Он достигает сопоставимой или более высокой производительности по сравнению с полностью настроенными методами полного внимания, сохраняя при этом высокую эффективность. Activation Beacon был протестирован на различных задачах и продемонстрировал свою эффективность в различных реальных приложениях.

В целом, Activation Beacon предоставляет недорогое и эффективное решение для увеличения длины контекста в LLM. Этот новый метод имеет потенциал значительно улучшить возможности больших моделей языка и позволить им эффективно обрабатывать более длинные контексты. Дальнейшие исследования и разработки в этой области могут привести к значительным прорывам в обработке и понимании естественного языка.

The source of the article is from the blog dk1250.com