Paaugstinais skaņas kvalitāti, izmantojot cilvēka uztveres spēku

Sajūsminot jauno sasniegumu, pētnieki ir atklājuši jaunu dziļās apmācības modeli, kas spēj ievērojami uzlabot skaņas kvalitāti reālos scenārijos. Izmantojot cilvēka uztveri, šis modelis pārspēj tradicionālos pieejas veidus, iekļaujot subjektīvas skaņas kvalitātes vērtējumus.

Tradicionālās metodes, kas paredzētas fonu trokšņa mazināšanai, izmanto mākslīgā intelekta algoritmus, lai izvilktu troksni no vēlamo signālu kvalitātes. Tomēr šīs objektīvās metodes ne vienmēr saskan ar klausītāju novērtējumu par to, kas padara runu viegli saprotamu. Šeit nāk klajā jaunais modelis. Izmantojot uztveri kā apmācības rīku, modelis efektīvi var izņemt nevēlamus skaņus, uzlabojot runas kvalitāti.

Pētījumā, kas publicēts žurnālā IEEE Xplore, tika izpētīta monaurālā runas uzlabošana – runa, kas nāk no viena audio kanāla. Pētnieki apmācīja modeli, izmantojot divus datu kopas, kas ietvēra ierakstus par runājošiem cilvēkiem, daži no kuriem bija apslāpēti ar fonu troksni. Klausītāji vērtēja katru ierakstu runas kvalitāti, izmantojot skalas no 1 līdz 100.

Šo pētījumu atšķirīgais moments no citiem ir tā uztveres kvalitātes subjektīvā rakstura iekļaušana. Iekļaujot cilvēku skaņas novērtējumus, modelis izmanto papildu informāciju, lai labāk novērstu troksni. Pētnieki izmantoja kopīgas apmācības metodi, kas apvieno speciāli izveidotu runas uzlabošanas valodas moduli ar prognozēšanas modeli, kas spēj novērtēt vidējo viedokļa rezultātu, ko klausītāji sniegtu trokšņainam signālam.

Rezultāti bija izcilīgi. Jaunais pieeja sistemātiski pārspēja citus modeļus, mērot objektīvos mērijumus, piemēram, uztveres kvalitāti, saprotamību un cilvēku vērtējumus. Šis sasniegums ievērojami ietekmē ausu ierīces uzlabojumu, runas atpazīšanas programmas, runātāja verifikācijas lietojumprogrammas un bezvadu komunikācijas sistēmas.

Tomēr pastāv izaicinājumi, kas saistīti ar cilvēka uztveres izmantošanu skaņas kvalitātē. Trokšņains audio novērtējums ir ļoti subjektīvs un atkarīgs no indivīdu dzirdes spēju un pieredzes. Faktori, piemēram, dzirdes aparāti vai kokleāri implanti, arī var ietekmēt personas uztveri par savu skaņu vidi. Neskatoties uz šīm grūtībām, pētnieki ir nolēmuši turpināt pilnveidot savu modeli, iekļaujot cilvēka subjektīvos novērtējumus, lai pārvaldītu vēl sarežģītākas audio sistēmas un apmierinātu cilvēku lietotāju cerības.

Skatoties nākotnē, pētnieki redz iespēju, ka līdzīgi kā paplašinātās realitātes ierīces attēliem, tehnoloģijas reāllaikā paplašinās audio, uzlabojot kopējo klausīšanās pieredzi. Iekļaujot cilvēka uztveri mašīnmācības procesā, nozare var turpināt attīstīties un ceļot ceļu inovācijām skaņas uzlabošanas jomā.

Biežāk uzdotie jautājumi (BUJ)

1. Kāds ir rakstā aprakstītais audio kvalitātes uzlabojuma sasniegums?
Pētnieki ir izstrādājuši jaunu dziļās mācības modeli, kas saista subjektīvus skaņas kvalitātes vērtējumus, lai efektīvi izņemtu nevēlamus skaņus un uzlabotu runas kvalitāti.

2. Kā tradicionālās fonu trokšņa samazināšanas metodes darbojās?
Tradicionālās metodes izmantoja mākslīgā intelekta algoritmus, lai izvilktu troksni no vēlamajiem signāliem, bet tās ne vienmēr saskan ar klausītāju novērtējumiem par to, kas padara runu viegli saprotamu.

3. Uz kādu runas uzlabošanu pētījums koncentrējās?
Pētījums koncentrējās uz monaurālo runas uzlabošanu, kas nozīmē runu, kas nāk no viena audio kanāla.

4. Kuras datu kopas tika izmantotas, lai apmācītu modeli?
Pētnieki apmācīja modeli, izmantojot divus datu kopas ar ierakstiem par cilvēkiem runātājiem, daži no kuriem bija apslāpēti ar fonu troksni.

5. Kā pētnieki iekļāva cilvēku skatījumus par audio modelī?
Viņi izmantoja kopīgas apmācības metodi, kas apvieno speciāli izveidoto runas uzlabošanas valodas moduli ar prognozējošo modeļu, kas spēj novērtēt vidējo viedokļa rezultātu, ko klausītāji dotu trokšņainam signālam.

6. Kā jaunais pieeja salīdzinājumā ar citiem modeļiem?
Jaunā pieeja sistemātiski pārspēja citus modeļus, tostarp objektīvos mērījumus, piemēram, uztveres kvalitāti, saprotamību un cilvēku vērtējumus.

7. Kādas ir šī sasnieguma ietekmes?
Šis sasniegums ietekmē ausu ierīces uzlabojumu, runas atpazīšanas programmas, runātāja verifikācijas lietojumprogrammas un bezvadu komunikācijas sistēmas.

8. Kādas ir grūtības saistībā ar cilvēka uztveri par skaņas kvalitāti?
Trokšņains audio novērtējums ir ļoti subjektīvs un atkarīgs no indivīdu dzirdes spējām un pieredzes. Faktori, piemēram, dzirdes aparāti vai kokleāri implanti, arī var ietekmēt personas uztveri par viņu skaņas vidi.

9. Kā pētnieki plāno risināt šīs grūtības?
Pētnieki plāno pilnveidot savu modeli, iekļaujot cilvēka subjektīvos novērtējumus, lai apstrādātu pat vēl sarežģītākas audio sistēmas un apmierinātu cilvēku lietotāju cerības.

10. Kāds ir pētnieku nākotnes redzējums šajā jomā?
Pētnieki redz nākotni, kad tehnoloģijas reāllaikā uzlabos audio tāpat kā attēliem paplašinātās realitātes ierīcēs, lai uzlabotu kopējo klausīšanās pieredzi. Iekļaujot cilvēka uztveri mašīnmācības procesā, nozare var tālāk attīstīties un iezīmēt ceļu inovācijām skaņas uzlabošanas jomā.

Definīcijas:
– Dziļās mācības modelis: AI modelis, kas izmanto vairākus mākslīgo neironu tīklu slāņus, lai mācītos un prognozētu.
– Subjektīvi vērtējumi: Vērtējumi vai novērtējumi, kas balstās uz personiskām domām vai pieredzi, nevis objektīviem faktiem.
– Monaurāla runas uzlabošana: Runas kvalitātes uzlabošana, kas nāk no viena audio kanāla.
– AI algoritmi: Datoru algoritmi, kas izmanto mākslīgā intelekta tehnikas, lai veiktu konkrētas uzdevumus vai atrisinātu problēmas.
– Viedokļa vidējais rezultāts: Mērauka, kas tiek izmantota audio vai video signālu kopējās kvalitātes novērtēšanai, parasti iegūta, veicot subjektīvus novērtējumus.

Ieteiktie saistītie saites:
IEEE – Elektrotehnikas un elektronikas inženieru institūta oficiālā tīmekļa vietne, kurā var piekļūt žurnālam IEEE Xplore, kas publicēja pētījumu.
Nacionālais dzirdes un citu sakarā esošo traucējumu institūts (NIDCD) – Uzticams avots informācijai par dzirdes veselību un sakarā esošām jauninājumiem.

The source of the article is from the blog rugbynews.at