Une approche innovante améliore la précision de la reconnaissance automatique de la parole

Dans une récente étude, des chercheurs de l’Université King Abdullah des Sciences et de la Technologie et de NVIDIA ont développé une nouvelle approche pour améliorer la précision des systèmes de reconnaissance automatique de la parole (ASR). La technologie ASR est largement utilisée dans les appareils grand public, tels que les enceintes intelligentes, pour convertir le langage parlé en texte écrit.

L’approche de l’équipe, appelée Whispering-LLaMA, combine deux composants afin d’améliorer la précision de l’ASR. Le premier composant est le modèle de base Whisper ASR, formé sur une vaste quantité de données audio multilingues. Ce modèle génère des hypothèses n-best (les plus probables) à partir des échantillons de discours. Le second composant est le modèle de langue LLaMA, qui est utilisé pour générer des transcriptions corrigées d’erreurs en utilisant sa connaissance de la langue.

Ce qui distingue Whispering-LLaMA des approches précédentes, c’est sa capacité à intégrer des modalités de données supplémentaires. L’ASR nécessite à la fois des informations acoustiques (sons dans l’environnement de l’interlocuteur) et des informations linguistiques (connaissances spécifiques à un domaine). En capturant et en traitant les deux types de données, les chercheurs estiment que le système peut faire des prédictions plus précises.

L’équipe a effectué des évaluations en utilisant différentes bases de données ASR et a constaté que la fusion des modalités de données dans Whispering-LLaMA permettait une amélioration remarquable de 37,66% du taux d’erreurs de mots par rapport aux systèmes ASR existants. Ces résultats prometteurs indiquent le potentiel de développement d’une nouvelle génération d’outils ASR hautement précis.

Pour encourager la recherche et le développement ultérieurs dans ce domaine, l’équipe a rendu leur code et leurs modèles pré-entrainés open-source, permettant à d’autres chercheurs de s’appuyer sur leur travail.

Cette approche novatrice de l’ASR améliore non seulement la commodité et l’accessibilité des appareils grand public, mais ouvre également la voie à des avancées dans la technologie de reconnaissance de la parole. Avec des améliorations continues de la précision, les systèmes ASR sont prêts à révolutionner notre façon d’interagir avec la technologie et à rendre les interfaces vocales encore plus fiables et efficaces.

The source of the article is from the blog lokale-komercyjne.pl