Novi napredki v modelih besedila v govor: Odklepanje naravnih stavkov z BASE TTS

Raziskovalci pri Amazonu so dosegli pomemben napredek v tehnologiji besedila v govor, saj so usposobili največji model doslej, ki se odlikuje po izboljšanih sposobnostih naravnih izgovorjav kompleksnih stavkov. Ta dosežek bi lahko pomenil ključni korak pri premagovanju fenomena globoke doline, ki je v preteklosti oviral ustvarjanje glasov, podobnih človeškim.

Za razliko od prejšnjih jezikovnih modelov, ki so pokazali postopno izboljšanje s povečevanjem velikosti, ta nov model, znan kot BASE TTS (Big Adaptive Streamable TTS with Emergent abilities), ob preseganju določenega praga velikosti doseže velik napredek pri izvajanju. Raziskovalci pri Amazonu AGI že dolgo sumijo, da bi podobne rastne vzorce lahko opazili tudi pri modelih besedila v govor, in njihove najnovejše raziskave potrjujejo to hipotezo.

BASE TTS uporablja skupno 100.000 ur podatkov o izgovorjavi v javni domeni, večinoma v angleščini s segmenti v nemščini, nizozemščini in španščini, in se ponaša z impresivnih 980 milijonov parametrov. To ga naredi za največji model te vrste do sedaj. Poleg tega je ekipa usposobila tudi manjše različice modela z 400 milijoni in 150 milijoni parametrov, da bi bolje razumela, kdaj se začnejo pojavljati izvorne zmožnosti.

Čeprav je izboljšanje kakovosti izgovorjave samo zmerno v primerjavi s prejšnjimi modeli, je BASE TTS pokazal izjemne izvorne sposobnosti pri obvladovanju različnih nalog umetne inteligence za pogovarjanje. Raziskovalci so preizkusili uspešnost modela pri zahtevnih besedilnih primerih, ki so znani kot izzivi za tradicionalne stroje za pretvorbo besedil v govor. Med temi primeri so sestavljeni samostalniki, čustvena izgovorjava, tuji jeziki, paralingvistika, ločila, vprašanja in sintaktične kompleksnosti.

BASE TTS je pokazal znatno večjo natančnost in naravnost pri izgovarjanju zahtevnih besed in fraz v primerjavi s konkurenčnimi modeli, kot sta Tortoise in VALL-E. Model se je uspešno spopadel z zagatnimi stavki, poudaril naglas dolgih sestavljenih samostalnikov, ustvaril čustvene ali šepetalne izgovorjave, pravilno izgovoril tuje besede in ločila ter obvladal sintaktične kompleksnosti.

Čeprav so izbrani primeri na spletni strani raziskovalcev namerno izbrani, vseeno prepričljivo prikazujejo napredne sposobnosti BASE TTS. S tem prebojem se zdi prihodnost tehnologije besedila v govor obetavna in tlakuje pot za bolj naravne glasove v navideznih pomočnikih, avdioknjigah in drugih aplikacijah, kjer se uporablja sintetični govor.

Seznam pogostih vprašanj:
1. Kakšen je pomen preboja v tehnologiji besedila v govor s strani raziskovalcev pri Amazonu?
– Preboj pomeni ključni korak pri premagovanju globoke doline in ustvarjanju bolj človeških glasov.

2. Kako se novi model BASE TTS razlikuje od prejšnjih jezikovnih modelov?
– V nasprotju z prejšnjimi modeli BASE TTS doseže velik napredek pri izvajanju, ko preseže določen prag velikosti, namesto postopnih izboljšav z velikostjo.

3. Kako velik je model BASE TTS?
– BASE TTS uporablja skupno 100.000 ur javno dostopnih podatkov o izgovorjavi in ima 980 milijonov parametrov, kar ga naredi za največji model te vrste do sedaj.

4. Kateri jeziki so vključeni v podatke o izgovorjavi, uporabljene za BASE TTS?
– Model večinoma uporablja podatke o izgovorjavi v angleščini, vključuje pa tudi segmente v nemščini, nizozemščini in španščini.

5. Katere izvorne sposobnosti je pokazal BASE TTS?
– BASE TTS je pokazal izjemne sposobnosti pri obvladovanju različnih nalog umetne inteligence za pogovarjanje, kot so natančno izgovarjanje zahtevnih besed in fraz, obvladovanje zagatnih stavkov, ustvarjanje čustvene ali šepetalne izgovorjave, pravilna izgovorjava tujih besed in ločil ter obvladovanje sintaktičnih kompleksnosti.

Opredelitve:
– Tehnologija besedila v govor: Pretvorba pisnega besedila v izgovorjene besede z uporabo računalniških algoritmov in modelov.
– Fenomen globoke doline: Občutek nelagodja ali neugodja, ki se pojavi, ko človeški robot ali sintetični glas tesno spominja na človeško bitje, vendar mu ne uspe prepričljivo posnemati človeškega videza ali izražanja.
– Parametri: V kontekstu modelov strojnega učenja so parametri numerične vrednosti, ki jih model izpopolni na podlagi podatkov za usposabljanje in jih uporablja za napovedovanje.

Predlagane povezave:
– Amazon.com
– Sinteza besedila v govor

The source of the article is from the blog oinegro.com.br