Inovativni pristup poboljšava točnost automatskog prepoznavanja govora

U nedavnoj studiji istraživači sa Sveučilišta Kralja Abdullaha za znanost i tehnologiju i tvrtke NVIDIA razvili su novi pristup kako bi poboljšali točnost sustava za automatsko prepoznavanje govora (ASR). ASR tehnologija se široko koristi u potrošačkim uređajima, poput pametnih zvučnika, kako bi prevela govorni jezik u pisanu tekstualnu formu.

Timov pristup, nazvan Whispering-LLaMA, kombinira dva komponenta kako bi poboljšao točnost ASR-a. Prva komponenta je Whisper ASR temeljni model, obučen na velikoj količini višejezičnih audio podataka. Taj model generira najbolje hipoteze uzoraka govora. Druga komponenta je LLaMA jezični model koji se koristi za generiranje ispravljenih transkripata uz pomoć svog znanja o jeziku.

Ono što Whispering-LLaMA razlikuje od prethodnih pristupa je njegova sposobnost integracije dodatnih modaliteta podataka. ASR zahtijeva kako akustične informacije (zvukove u okolišu govornika), tako i jezične informacije (specifično znanje domene). Snimajući i obrađujući oba tipa podataka, istraživači vjeruju da sustav može donijeti točnije predikcije.

Tim je proveo evaluacije koristeći razne skupove podataka za ASR i otkrio da spajanje modaliteta podataka u Whispering-LLaMA rezultira izvanrednim poboljšanjem od 37,66% u postotku greške riječi u usporedbi sa postojećim ASR sustavima. Ovi obećavajući rezultati ukazuju na mogućnost razvoja nove generacije visoko preciznih alata za ASR.

Da bi potaknuli daljnja istraživanja i razvoj u ovom području, tim je svoj kod i prethodno obučene modele učinio dostupnim kao open-source, što omogućuje drugim istraživačima da nadograđuju njihov rad.

Ovaj inovativan pristup ASR ne samo da poboljšava praktičnost i dostupnost potrošačkih uređaja, već stvara temelje za napredak tehnologije prepoznavanje govora. S neprekidnim poboljšanjem točnosti, ASR sustavi su spremni revolucionirati način na koji interakcioniramo s tehnologijom i činiti govorne sučelja još pouzdanijima i učinkovitijima.

The source of the article is from the blog publicsectortravel.org.uk

Web Story

Privacy policy
Contact