Nové pokroky v modeloch pre text-to-speech: Odomykanie prirodzených viet s BASE TTS

Výskumníci z Amazonu dosiahli významný prielom v technológii text-to-speech, trénujúc najväčší model, ktorý preukazuje zlepšené schopnosti hovoriť komplexné vety prirodzene. Tento vývoj by mohol predstavovať kľúčový krok pri prekonávaní fenoménu údolia hrôzy, ktorý postihol predchádzajúce pokusy o vytvorenie hlasov podobných ľuďom.

Na rozdiel od predchádzajúcich modelov jazyka, ktoré postupne zlepšovali svoje schopnosti, keď sa zväčšovali, tento nový model, nazývaný BASE TTS (Big Adaptive Streamable TTS with Emergent abilities), preukazuje významný posun vo výkone, keď prekročí určitú veľkosťovú hranicu. Výskumníci v spoločnosti Amazon AGI už dlho podozrievajú, že podobné rastové vzory možno pozorovať aj v modeloch pre text-to-speech a ich najnovšie výskumy potvrdzujú túto hypotézu.

BASE TTS, ktorý využíva celkovo 100 000 hodín verejného rečového materiálu, prevažne v angličtine a s niektorými úsekmi v nemčine, holandčine a španielčine, sa pyšní impozantnými 980 miliónmi parametrov. Tento model je zatiaľ najväčším svojho druhu. Okrem toho tím trénoval aj menšie verzie modelu s 400 miliónmi a 150 miliónmi parametrov, aby lepšie porozumel, v ktorom bode sa prejavia nové schopnosti.

I keď zlepšenie kvality reči samo osebe bolo len malé v porovnaní s predchádzajúcimi modelmi, BASE TTS preukázal pozoruhodné schopnosti v riešení rôznych úloh spojených s konverzačnou AI. Výskumníci testovali výkon modelu na náročných príkladoch textu, ktoré bežne spôsobujú problémy tradičným hlasovým syntetizátorom. Medzi tieto príklady patria zložené podstatné mená, emocionálna reč, cudzie slová, paralingvistika, interpunkcia, otázky a sytaktické komplexity.

BASE TTS preukázal výrazne vyššiu presnosť a prirodzenosť v výslovnosti náročných slov a fráz oproti svojim konkurentom, ako sú Tortoise a VALL-E. Tento model bol schopný správne analyzovať zdanlivo nepravdepodobné vety, zdôrazňovať fázový stres pri dlhých zložených podstatných menách, produkovať emocionálnu alebo šepkanú reč, správne artikulovať cudzie slová a interpunkciu a zvládať sytaktické zložitosti.

Hoci vybrané príklady prezentované na webovej stránke výskumníkov boli zámerne vybrané, predstavujú presvedčivú demonštráciu pokročilých schopností modelu BASE TTS. S týmto prielomom sa budúcnosť technológie text-to-speech javí sľubne a otvára cestu pre viac prirodzené a ľudské hlasy virtuálnych asistentov, audiokníh a iných aplikácií, kde sa využíva syntetická reč.

Časté otázky:
1. Aký je význam prielomu v technológii text-to-speech od výskumníkov spoločnosti Amazon?
– Tento prielom predstavuje kľúčový krok pri prekonávaní fenoménu údolia hrôzy a vytvorení hlasov, ktoré sú bližšie k ľudským.

2. V čom sa nový model BASE TTS líši od predchádzajúcich modelov jazyka?
– Na rozdiel od predchádzajúcich modelov BASE TTS preukazuje významný posun vo výkone, keď prekročí určitú veľkosťovú hranicu, namiesto postupného zlepšovania s rastom.

3. Aký je rozsah modelu BASE TTS?
– Model BASE TTS využíva celkovo 100 000 hodín verejného rečového materiálu a má 980 miliónov parametrov, čo z neho robí najväčší model svojho druhu doteraz.

4. Aké jazyky sú zahrnuté v rečovom materiáli použitom pre BASE TTS?
– Model prevážne využíva rečové dáta v angličtine, ale obsahuje aj úseky v nemčine, holandčine a španielčine.

5. Aké sú niektoré z nových schopností, ktoré preukázal model BASE TTS?
– BASE TTS preukázal pozoruhodné schopnosti v riešení rôznych úloh súvisiacich s konverzáciou AI, ako napríklad presné vyslovenie náročných slov a fráz, analýza zdĺhavých veter, produkcia emocionálnej alebo šepkané reči, správna artikulácia cudzích slov a interpunkcie a zvládanie sytaktických zložitostí.

Definície:
– Technológia text-to-speech: Prevedenie písomného textu na hovorené slová pomocou počítačových algoritmov a modelov.
– Fenomén údolia hrôzy: Pocit nepríjemnosti alebo nepohodlia, ktorý zažívame, keď humanoidný robot alebo syntetický hlas pripomína človeka, ale nedokáže presvedčivo napodobniť ľudskosť.
– Parametre: V kontexte modelov strojového učenia sú parametre číselné hodnoty, ktoré model získava z trénovacích dát a používa na predikciu.

Navrhované súvisiace odkazy:
– Amazon.com
– Syntéza text-to-speech

The source of the article is from the blog cheap-sound.com