Enfoque innovador mejora la precisión del reconocimiento automático de voz

En un estudio reciente, investigadores de la Universidad King Abdullah de Ciencia y Tecnología y NVIDIA han desarrollado un nuevo enfoque para mejorar la precisión de los sistemas de Reconocimiento Automático de Voz (ASR, por sus siglas en inglés). La tecnología ASR se utiliza ampliamente en dispositivos de consumo, como altavoces inteligentes, para convertir el lenguaje hablado en texto escrito.

El enfoque del equipo, llamado Whispering-LLaMA, combina dos componentes para mejorar la precisión del ASR. El primer componente es el modelo base Whisper ASR, entrenado en una gran cantidad de datos de audio multilingüe. Este modelo genera múltiples hipótesis de muestras de habla. El segundo componente es el modelo de lenguaje LLaMA, que se utiliza para generar transcripciones corregidas de errores mediante el uso de sus conocimientos lingüísticos.

Lo que distingue a Whispering-LLaMA de enfoques anteriores es su capacidad para integrar modalidades de datos adicionales. El ASR requiere tanto información acústica (sonidos en el entorno del hablante) como información lingüística (conocimiento específico del dominio). Al capturar y procesar ambos tipos de datos, los investigadores creen que el sistema puede realizar predicciones más precisas.

El equipo realizó evaluaciones utilizando diferentes conjuntos de datos de ASR y encontró que la fusión de las modalidades de datos en Whispering-LLaMA resultó en una mejora notable del 37.66% en la tasa de error de palabras en comparación con los sistemas de ASR existentes. Estos resultados prometedores indican el potencial de desarrollar una nueva generación de herramientas de ASR altamente precisas.

Para fomentar una mayor investigación y desarrollo en este campo, el equipo ha publicado su código y modelos pre-entrenados de forma abierta, permitiendo que otros investigadores puedan construir sobre su trabajo.

Este enfoque innovador del ASR no solo mejora la comodidad y accesibilidad de los dispositivos de consumo, sino que también sienta las bases para avances en la tecnología de reconocimiento de voz. Con mejoras continuas en la precisión, los sistemas de ASR están listos para revolucionar la forma en que interactuamos con la tecnología y hacer que las interfaces basadas en voz sean aún más confiables y eficientes.

The source of the article is from the blog papodemusica.com