Amazonas Base TTS: revolūcijas text-to-speech ar dabisko izrunu

Amazon.com Inc. ir veikusi ievērojamu caurumu text-to-speech tehnoloģijas jomā, izstrādājot Base TTS. Šī inovatīvā modelis spēj izrunāt vārdus dabiskākā un cilvēciskākā veidā nekā jebkad agrāk. Amazonas pētniecības komanda ir aprakstījusi Base TTS arhitektūru un funkcionalitāti jaunā akadēmiskajā rakstā, atklājot tā potenciālu pārveidot mūsu mijiedarbību ar mākslīgo intelektu.

Viena no Base TTS ievērojamajām īpašībām ir tās milzīgā apjoma. Ar aptuveni 1 miljardu parametru tā pašlaik ir lielākā neironu tīkla kategorijā. Šie parametri nosaka, kā mākslīgais intelekts apstrādā datus, un to skaita palielināšana ļauj modelim veikt plašāku uzdevumu klāstu. Lai apmācītu Base TTS, pētnieki izmantoja plašu audio datu kopu no publiskā tīmekļa, kas sastāv no iespaidīgiem 100 000 stundu ilga satura. Lielākā daļa datu kopas satur angļu valodas ierakstus, bet nedaudzākā daļa ir nesanemtās valodas saturs.

Lai nodrošinātu optimālu apmācību, audio dati tika sadalīti mazākos failos, katram no tiem saturot ne vairāk kā 40 sekundes runas. Pētījuma rezultāti parāda, kā modelis ir attīstījies, lai demonstrētu dabisko prozodiju, it īpaši apstrādājot tekstiski sarežģītas teikumus. Base TTS sastāv no diviem atsevišķiem AI modeļiem. Pirmajam modeļam, kas balstīts uz Transformer arhitektūru, kas darbojas OpenAI GPT-4 modelim, konvertē lietotāja ievadīto tekstu par abstraktām matemātiskām reprezentācijām, ko sauc par runas kodiem. Šos runas kodus pēc tam apstrādā otrs neironu tīkls, kas pārveido tos augstas kvalitātes audio izvadei.

Turklāt Transformer modelim Base TTS ir spēja ievērojami uzlabot lietotāju pieredzi, izslēdzot liekos elementus, piemēram, fona troksni, un saspiežot runas kodus, lai paātrinātu apstrādi. Gala rezultāts ir sistēma, kas bez problēmām tulko tekstu par spektrogrammām, skaņas viļņu vizuālajām reprezentācijām, kas var tikt pārveidotas dzīvīgā runā, izmantojot mākslīgo intelektu.

Caurskatījumu novērtējuma rezultātā Amazonas pētnieki ir pierādījuši, ka Base TTS pārsniedz tā priekšgājējus, piedāvājot labāku runas kvalitāti un dabiskumu. Tas ne tikai precīzi izrunā vārdus un simbolus, bet arī viegli apstrādā svešvalodas vārdus un jautājumus angliski rakstītās teikumos. Tas ir ievērojams sasniegums, ņemot vērā, ka modelis netika specifiski apmācīts dažādam teikumu veidam, kas iekļauti novērtēšanas datu kopā.

Amazonas Base TTS ir nozīmīgs solis uz priekšu text-to-speech tehnoloģijas jomā. Tā spēja radīt augstas kvalitātes un dabiski skaņojošu audio piedāvā lielu cerību dažādām lietojumprogrammām, tai skaitā balss asistentiem, audiogrāmatām un pieejamības rīkiem. Kamēr Amazona turpina inovēt un pilnveidot šo tehnoloģiju, mēs varam gaidīt vairāk iesaistošas un cilvēciski līdzīgas mijiedarbības ar AI sistēmām nākotnē.

The source of the article is from the blog guambia.com.uy