Nouvelles avancées dans les modèles de synthèse vocale : libérer des phrases naturelles avec BASE TTS

Les chercheurs d’Amazon ont réalisé une percée significative dans la technologie de synthèse vocale en formant le plus grand modèle jamais créé qui présente des capacités améliorées pour prononcer naturellement des phrases complexes. Cette avancée pourrait marquer une étape cruciale dans la surmontée du phénomène de la « vallée dérangeante » qui a entravé les tentatives précédentes de création de voix semblables à celles des êtres humains.

Contrairement aux modèles linguistiques précédents qui montraient des améliorations progressives à mesure qu’ils augmentaient en taille, ce nouveau modèle, connu sous le nom de BASE TTS (Big Adaptive Streamable TTS with Emergent abilities), démontre un bond de performance une fois qu’il dépasse un certain seuil de taille. Les chercheurs d’Amazon AGI ont depuis longtemps soupçonné que des schémas de croissance similaires pourraient être observés dans les modèles de synthèse vocale et leurs dernières recherches valident cette hypothèse.

BASE TTS, qui utilise un total de 100 000 heures de données vocales du domaine public, principalement en anglais avec quelques segments en allemand, néerlandais et espagnol, se vante de 980 millions de paramètres impressionnants. Cela en fait le plus grand modèle de son genre à ce jour. De plus, l’équipe a formé des versions plus petites du modèle avec 400 millions et 150 millions de paramètres respectivement pour mieux comprendre le moment où les comportements émergents commencent à se manifester.

Bien que l’amélioration de la qualité de la parole en elle-même soit marginale par rapport aux modèles précédents, BASE TTS a démontré des capacités émergentes remarquables pour gérer diverses tâches d’IA conversationnelle. Les chercheurs ont testé les performances du modèle sur des exemples de texte difficiles connus pour poser problème aux moteurs de synthèse vocale traditionnels. Ces exemples comprenaient des noms composés, des discours émotionnels, des mots étrangers, la paralinguistique, la ponctuation, les questions et les complexités syntaxiques.

BASE TTS a montré un niveau de précision et de naturel significativement plus élevé dans la prononciation de mots et de phrases complexes par rapport à ses homologues tels que Tortoise et VALL-E. Le modèle a réussi à analyser des phrases trompeuses, à mettre l’accent sur le stress phrastique des longs noms composés, à produire des discours émotionnels ou chuchotés, à articuler correctement des mots étrangers et la ponctuation, ainsi qu’à gérer les complexités syntaxiques.

Bien que les exemples choisis présentés sur le site des chercheurs aient été sélectionnés intentionnellement, ils fournissent une démonstration convaincante des capacités avancées de BASE TTS. Avec cette percée, l’avenir de la technologie de synthèse vocale semble prometteur, ouvrant la voie à des voix plus naturelles et semblables à celles des êtres humains dans les assistants virtuels, les livres audio et les autres applications où la parole synthétique est utilisée.

Section FAQ :
1. Quelle est la signification de la percée dans la technologie de synthèse vocale réalisée par les chercheurs d’Amazon ?
– Cette percée marque une étape cruciale dans la surmontée du phénomène de la « vallée dérangeante » et la création de voix plus semblables à celles des êtres humains.

2. En quoi le nouveau modèle, BASE TTS, diffère-t-il des modèles linguistiques précédents ?
– Contrairement aux modèles précédents, BASE TTS démontre un bond significatif de performance une fois qu’il dépasse un certain seuil de taille, plutôt que des améliorations progressives liées à la taille.

3. Quelle est la taille du modèle BASE TTS ?
– BASE TTS utilise un total de 100 000 heures de données vocales du domaine public et comporte 980 millions de paramètres, en faisant le plus grand modèle de son genre à ce jour.

4. Quelles langues sont incluses dans les données vocales utilisées pour BASE TTS ?
– Le modèle utilise principalement des données vocales en anglais, mais inclut également des segments en allemand, néerlandais et espagnol.

5. Quelles sont certaines des capacités émergentes exhibées par BASE TTS ?
– BASE TTS a montré des capacités remarquables pour gérer diverses tâches d’IA conversationnelle, notamment la prononciation précise de mots et de phrases complexes, l’analyse de phrases trompeuses, la production de discours émotionnels ou chuchotés, l’articulation correcte de mots étrangers et de la ponctuation, ainsi que la gestion des complexités syntaxiques.

Définitions :
– Technologie de synthèse vocale : la conversion d’un texte écrit en paroles à l’aide d’algorithmes et de modèles informatiques.
– Phénomène de la « vallée dérangeante » : la sensation d’inconfort ressentie lorsqu’un robot humanoïde ou une voix synthétique ressemble de près à un être humain mais ne parvient pas à être convaincant par sa similarité humaine.
– Paramètres : Dans le contexte des modèles d’apprentissage automatique, les paramètres sont des valeurs numériques que le modèle apprend des données d’entraînement et utilise pour faire des prédictions.

Liens suggérés connexes :
– Amazon.com
– Synthèse de texte en parole

The source of the article is from the blog rugbynews.at