Uusi innovatiivinen lähestymistapa parantaa automaattisen puheentunnistuksen tarkkuutta

Viimeisimmässä tutkimuksessa King Abdullahin teknillisen yliopiston ja NVIDIA:n tutkijat ovat kehittäneet uuden tavan parantaa automaattisen puheentunnistuksen (ASR) järjestelmien tarkkuutta. ASR-tekniikkaa käytetään laajasti kuluttajalaitteissa, kuten älykaiuttimissa, muuttamaan puhuttu kieli kirjoitetuksi tekstiksi.

Tiimin kehittämä lähestymistapa, nimeltään Whispering-LLaMA, yhdistää kaksi komponenttia ASR-tarkkuuden parantamiseksi. Ensimmäinen komponentti on Whisper ASR perusmalli, joka on koulutettu suurella määrällä monikielistä äänidataa. Tämä malli tuottaa puheenäytteiden n-best hypoteeseja. Toinen komponentti on LLaMA:n kielenmalli, jota käytetään virheenkorjattujen transkriptioiden generointiin hyödyntäen sen kielitaitoa.

Whispering-LLaMA erottuu aiemmista lähestymistavoista kyvyllään integroida lisädatamodaliteetteja. ASR-järjestelmät vaativat sekä akustista tietoa (puhujan ympäristössä kuultavia ääniä) että kielitieteellistä tietoa (alan erityisosaamista). Tutkijoiden mukaan molempien tietotyyppien tallentaminen ja käsittely mahdollistavat tarkemmat ennusteet.

Tiimi teki arvioinnin käyttäen erilaisia ASR-datasettejä ja huomasi, että datamodaliteettien yhdistäminen Whispering-LLaMA:ssa johti 37,66% huomattavaan parannukseen sanavirheettömyysprosentissa verrattuna olemassa oleviin ASR-järjestelmiin. Nämä lupaavat tulokset osoittavat mahdollisuuden kehittää uuden sukupolven erittäin tarkkoja ASR-työkaluja.

Kannustaakseen edelleen tutkimusta ja kehitystä tällä alalla, tiimi on julkaissut koodinsa ja esikoulutetut mallinsa avoimeen lähdekoodiin, mikä mahdollistaa muiden tutkijoiden rakentaa edelleen heidän työnsä pohjalta.

Tämä innovatiivinen lähestymistapa ASR:ään ei ainoastaan paranna kuluttajalaitteiden kätevyyttä ja saavutettavuutta, vaan se myös luo pohjaa kehitykselle puheentunnistusteknologiassa. Jatkuvien tarkkuusparannusten myötä ASR-järjestelmät ovat valmiita mullistamaan sen, miten vuorovaikutamme teknologian kanssa ja tekemään ääniavusteisista käyttöliittymistä entistä luotettavampia ja tehokkaampia.

The source of the article is from the blog jomfruland.net

Privacy policy
Contact