Новое направление исследований в области крупных языковых моделей

Исследователи из MIT и других учреждений сделали интересное открытие о крупных языковых моделях (КЯМ). Эти модели, также известные как трансформерные модели, широко используются в приложениях искусственного интеллекта, таких как чатботы AI, например ChatGPT. Сложность этих моделей позволяет им хранить и декодировать огромное количество знаний, используя удивительно простые линейные функции. Это открытие проливает свет на то, как эти модели работают, и имеет последствия для улучшения их точности.

Исследователи разработали технику идентификации линейных функций, используемых КЯМ для кодирования и извлечения различных типов фактов. Изучая эти функции, они получили представление о знаниях модели по различным предметам и о том, где это знание хранится внутри модели. Интересным аспектом было обнаружение того, что даже когда модель дает неверный ответ на запрос, она часто все равно имеет правильную информацию в своем хранилище. Это указывает на то, что эти простые функции потенциально могут быть использованы для выявления и исправления недостоверной информации в модели, тем самым уменьшая вероятность неверных или бессмысленных ответов от чатботов AI.

Хотя не все факты кодируются и извлекаются линейным образом, открытие этих простых функций представляет собой ценный инструмент для понимания внутренних механизмов крупных языковых моделей. Для помощи в исследовании команда также разработала технику визуализации под названием «атрибутивная линза». Этот инструмент визуализации позволяет определить, где именно хранится определенная информация о связях в слоях языковой модели. Атрибутивная линза помогает исследователям и инженерам лучше понять структуру знаний модели и, возможно, выявить и исправить любые неточности.

Взгляд в будущее, исследователи планируют более глубокие изыскания о том, как факты сохраняются, если они не следуют линейным паттернам. Они также намерены провести эксперименты с крупными языковыми моделями, чтобы убедиться, что эти простые функции соответствуют действительности на более широком масштабе. Эти исследования имеют потенциал улучшить наше понимание языковых моделей и повысить их производительность в различных областях.

Часто задаваемые вопросы (FAQ)

Q: Что такое крупные языковые модели?
A: Крупные языковые модели, также известные как трансформерные модели, являются моделями искусственного интеллекта, способными обрабатывать и понимать человеческий язык. Они особенно полезны для задач, таких как поддержка клиентов, генерация кода и перевод языка.

Q: Как исследователи проникают в крупные языковые модели?
A: Исследователи используют методики для выявления механизмов извлечения и декодирования хранимых знаний крупных языковых моделей. В этом исследовании они выявили и изучили простые линейные функции, которые часто используются этими моделями для извлечения фактов.

Q: Как это исследование может помочь улучшить точность языковых моделей?
A: Понимая простые функции, используемые языковыми моделями для извлечения фактов, исследователи могут потенциально определить и исправить ложную информацию, хранящуюся в моделях. Это может уменьшить случаи неправильных или бессмысленных ответов, предоставляемых чатботами AI.

Q: Что такое «атрибутивная линза»?
A: Атрибутивная линза — это инструмент визуализации, разработанный исследователями, чтобы определить, где именно хранится определенная информация о связях в слоях языковой модели. Этот инструмент помогает исследователям и инженерам лучше понять знания модели.

Q: Какие будущие направления исследований для этого исследования?
A: Исследователи планируют более глубоко изучить, как хранятся факты, когда они не следуют линейным паттернам. Они также намерены провести эксперименты с более крупными языковыми моделями, чтобы подтвердить свои выводы на более широком масштабе.

Источники:
— MIT News: news.mit.edu

The source of the article is from the blog mgz.com.tw