Abordarea inovatoare îmbunătățește precizia recunoașterii automate a discursului

Într-un studiu recent, cercetători de la King Abdullah University of Science and Technology și NVIDIA au dezvoltat o nouă abordare pentru a îmbunătăți precizia sistemelor de recunoaștere automată a discursului (ASR). Tehnologia ASR este larg utilizată în dispozitivele de consum, cum ar fi boxele inteligente, pentru a converti limbajul vorbit în text scris.

Abordarea echipei, numită Whispering-LLaMA, combină două componente pentru a îmbunătăți precizia ASR. Prima componentă este modelul de bază Whisper ASR, instruit pe o cantitate mare de date audio multilingve. Acest model generează n-best hypotheses ale eșantioanelor de discurs. A doua componentă este modelul de limbă LLaMA, care este utilizat pentru a genera transcrieri corectate în caz de eroare, folosindu-și cunoștințele despre limbă.

Ceea ce deosebește Whispering-LLaMA de abordările anterioare este capacitatea sa de a integra alte modalități de date. ASR necesită informații atât acustice (sunete din mediul vorbitorului), cât și lingvistice (cunoștințe specifice domeniului). Capturând și procesând ambele tipuri de date, cercetătorii cred că sistemul poate face predicții mai precise.

Echipa a efectuat evaluări folosind diferite seturi de date ASR și a constatat că fuzionarea modalităților de date în Whispering-LLaMA a dus la o îmbunătățire remarcabilă de 37,66% în ceea ce privește rata de eroare a cuvintelor în comparație cu sistemele ASR existente. Aceste rezultate promițătoare indică potențialul de a dezvolta o nouă generație de instrumente ASR extrem de precise.

Pentru a încuraja cercetarea și dezvoltarea suplimentară în acest domeniu, echipa și-a pus codul și modelele pre-antrenate la dispoziție gratuit, permițând altor cercetători să construiască pe baza muncii lor.

Această abordare inovatoare a ASR nu numai că îmbunătățește confortul și accesibilitatea dispozitivelor de consum, dar și deschide calea pentru progrese în tehnologia de recunoaștere a discursului. Cu îmbunătățiri continue în precizie, sistemele ASR sunt pregătite să revoluționeze modul în care interacționăm cu tehnologia și să facă interfețele bazate pe voce și mai fiabile și mai eficiente.

The source of the article is from the blog radiohotmusic.it