Nieuwe Vooruitgang in Tekst-naar-Spraak Modellen: Natuurlijke Zinnen Ontsluiten met BASE TTS

Onderzoekers bij Amazon hebben een significante doorbraak bereikt in tekst-naar-spraak technologie door het trainen van het grootste model ooit, dat verbeterde mogelijkheden vertoont in het natuurlijk uitspreken van complexe zinnen. Deze ontwikkeling zou een cruciale stap kunnen zijn in het overwinnen van het ‘uncanny valley’-fenomeen dat eerdere pogingen om menselijke stemmen te creëren heeft gehinderd.

In tegenstelling tot eerdere taalmodellen, die incrementele verbeteringen lieten zien naarmate ze groter werden, toont dit nieuwe model, bekend als BASE TTS (Big Adaptive Streamable TTS with Emergent abilities), een sprong in prestaties zodra het een bepaalde drempelgrootte overschrijdt. De onderzoekers bij Amazon AGI vermoedden al langere tijd dat vergelijkbare groeipatronen konden worden waargenomen bij tekst-naar-spraak modellen, en hun nieuwste onderzoek bevestigt deze hypothese.

BASE TTS maakt gebruik van in totaal 100.000 uur aan openbaar domein spraakdata, voornamelijk in het Engels met enkele segmenten in het Duits, Nederlands en Spaans, en beschikt over indrukwekkende 980 miljoen parameters. Dit maakt het het grootste model in zijn soort tot nu toe. Daarnaast heeft het team kleinere versies van het model getraind met respectievelijk 400 miljoen en 150 miljoen parameters om beter te begrijpen op welk punt de opkomende gedragingen beginnen te verschijnen.

Hoewel de verbetering in spraakkwaliteit op zichzelf slechts marginaal was in vergelijking met eerdere modellen, vertoonde BASE TTS opmerkelijke opkomende mogelijkheden bij het uitvoeren van verschillende taken voor conversational AI. De onderzoekers testten de prestaties van het model op uitdagende tekstvoorbeelden die bekend staan om traditionele tekst-naar-spraak engines te laten struikelen. Deze voorbeelden omvatten samengestelde zelfstandige naamwoorden, emotionele spraak, vreemde woorden, paralinguïstiek, interpunctie, vragen en syntactische complexiteiten.

BASE TTS vertoonde een aanzienlijk hoger niveau van nauwkeurigheid en natuurlijkheid bij het uitspreken van uitdagende woorden en zinnen in vergelijking met tegenhangers zoals Tortoise en VALL-E. Het model slaagde erin complexe zinnen te analyseren, de zinsstress te benadrukken bij lange samengestelde zelfstandige naamwoorden, emotionele of gefluisterde spraak te produceren, vreemde woorden en leestekens correct uit te spreken, en syntactische complexiteiten te behandelen.

Hoewel de gekozen voorbeelden opzettelijk geselecteerd zijn door de onderzoekers, bieden ze een overtuigende demonstratie van de geavanceerde mogelijkheden van BASE TTS. Met deze doorbraak ziet de toekomst van tekst-naar-spraak technologie er veelbelovend uit, wat de weg vrijmaakt voor meer natuurlijke en menselijke stemmen in virtuele assistenten, luisterboeken en andere toepassingen waar synthetische spraak wordt gebruikt.

Veelgestelde vragen:The source of the article is from the blog j6simracing.com.br

Veelgestelde vragen:
The source of the article is from the blog j6simracing.com.br