Новаторський підхід покращує точність автоматичного розпізнавання мови

У нещодавньому дослідженні вчені з Королівського університету ім. Абдуллы Iбн Абдуллы Аль-Сауда і компанії NVIDIA розробили новий підхід для покращення точності систем автоматичного розпізнавання мови (АРМ). Технологія АРМ широко використовується в споживчих пристроях, таких як розумні колонки, для перетворення усної мови на письмовий текст.

Підхід команди, названий Whispering-LLaMA, поєднує дві компоненти для покращення точності АРМ. Перша компонента – це модель основателя Whisper ASR, навчена за допомогою значної кількості мультиязикових аудіоданих. Ця модель генерує n-найкращі гіпотези мовних зразків. Друга компонента – це модель мови LLaMA, яка використовується для створення виправлених транскриптів за допомогою свого знання мови.

Що відрізняє Whispering-LLaMA від попередніх підходів, це його здатність інтегрувати додаткові модальності даних. Для АРМ потрібна як акустична інформація (звуки у середовищі спікера), так і лінгвістична інформація (знання про певну сферу). Захоплюючи і оброблюючи обидва типи даних, вчені вважають, що система може робити більш точні прогнози.

Команда провела оцінку за допомогою різних наборів даних АРМ і виявила, що злиття модальностей даних у Whispering-LLaMA призвело до вражаючого покращення на 37,66% у кількості помилок слів порівняно з існуючими системами АРМ. Ці обіцяючі результати свідчать про потенціал розробки нового покоління високоточних інструментів АРМ.

З метою сприяння подальшим дослідженням і розвитку в цій галузі, команда відкрила свій код та попередньо навчені моделі для вільного використання, що дозволяє іншим дослідникам будувати на їхній роботі.

Цей новаторський підхід до АРМ не тільки покращує зручність та доступність споживчих пристроїв, але і створює передумови для вдосконалення технології розпізнавання мови. З постійним покращенням точності, системи АРМ готові революціонізувати спосіб взаємодії з технологією та зробити голосові інтерфейси ще більш надійними та ефективними.

The source of the article is from the blog toumai.es

Privacy policy
Contact