Инновационная модель машинного обучения процветает за счет периодического забывания.

Новаторский подход к машинному обучению был разработан командой специалистов по компьютерным наукам, что позволяет создавать более гибкие и адаптивные модели, периодически заставляя модель забывать то, что она узнала. Это может не полностью заменить громадные модели, используемые в крупных приложениях, но это может пролить свет на то, как такие программы понимают язык.

Инженер искусственного интеллекта из Кореи Джэ Квон из Института базовых наук объясняет, что с помощью этого нового исследования было достигнуто значительное преимущество в этой области. Традиционные языковые движки искусственного интеллекта используют искусственные нейронные сети, где нейроны передают сигналы через функции по многим слоям, уточняя поток информации по мере обучения на обширных наборах данных.

Во время построения двуязычной модели большие объемы текста на обоих языках помогают настроить связи между нейронами. Эти связи позволяют тексту на одном языке соответствовать соответствующим терминам на другом языке. Однако тренировка требует значительной вычислительной мощности, и адаптивность представляет собой вызов.

Микель Артекше, один из авторов исследования и основатель стартапа по искусственному интеллекту Reka, объясняет сложность моделей, обрабатывающих множество языков одновременно, и неудобство повторной постройки с нуля, если отсутствует важный язык.

Годы назад Артекше и его коллеги обучили нейронную сеть на одном языке, а затем стерли «токены» — строительные блоки слов, найденные во встраиваемом слое сети — не изменяя остальные слои. После переобучения на втором языке модель успешно выучила и обработала новый язык, несмотря на противоречивую информацию.

Команда предположила, что в то время как конкретная информация о словах собирается во встраиваемом слое, более глубокие уровни сети собирают более абстрактные знания о человеческом языке, что облегчает обучение на втором языке.

Стратегия напоминает когнитивные процессы человека, где подробности не хранятся точно, но суть опыта абстрагируется и повторно используется для будущего использования. Это отражается в разработке более гибких моделей искусственного интеллекта, которые вскоре могут обладать способностью более эффективно учиться многим языкам, нацеливаясь на расширение возможностей прорывов в области искусственного интеллекта на широкий лингвистический спектр.