Инновационный подход повышает точность автоматического распознавания речи

В недавнем исследовании ученые из Королевского университета Королевы Абдуллы по науке и технологиям и компании NVIDIA разработали новый подход для повышения точности систем автоматического распознавания речи (ASR). Технология ASR широко используется в потребительских устройствах, таких как умные колонки, для преобразования устной речи в письменный текст.

Подход команды, названный Whispering-LLaMA, объединяет два компонента для повышения точности ASR. Первый компонент — это базовая модель Whisper ASR, обученная на большом количестве многоязыковых аудиоданных. Эта модель генерирует несколько наилучших гипотез аудиосэмплов. Второй компонент — это языковая модель LLaMA, которая используется для генерации исправленных транскриптов, используя ее знание языка.

Что отличает подход Whispering-LLaMA от предыдущих подходов, так это его способность интегрировать дополнительные модальности данных. ASR требует как акустической информации (звуки в окружении говорящего), так и лингвистической информации (знания в определенной области). Захватывая и обрабатывая оба типа данных, ученые полагают, что система может делать более точные предсказания.

Команда провела оценку, используя различные наборы данных ASR, и обнаружила, что объединение модальностей данных в Whispering-LLaMA привело к значительному улучшению показателя ошибок слов в размере 37,66% по сравнению с существующими системами ASR. Эти обнадеживающие результаты свидетельствуют о потенциале для разработки нового поколения высокоточных инструментов ASR.

Для поощрения дальнейших исследований и разработок в этой области, команда предоставила свой код и предварительно обученные модели в открытый доступ, что позволяет другим исследователям продолжить их работу.

Этот инновационный подход к ASR не только улучшает удобство и доступность потребительских устройств, но также создает основу для прогресса в области технологии распознавания речи. С постоянным улучшением точности ASR-системы готовы совершить революцию в том, как мы взаимодействуем с технологией и сделать голосовые интерфейсы еще более надежными и эффективными.

The source of the article is from the blog guambia.com.uy