Patobulinti garso kokybę naudojant žmogaus suvokimo jėgą

Įdomi permaina, mokslininkai atskleidė naują gilųjį mokymosi modelį, turintį potencialą žymiai pagerinti garso kokybę realaus pasaulio scenarijose. Išnaudodami žmogaus suvokimo jėgą, šis modelis geriau visa apima tradicines metodus, įtraukdamas subjektyvius garso kokybės įvertinimus.

Pagerinus garso foną tradicinio būdo algoritmai remiasi dirbtinio intelekto algoritmais, siekdami išsiskirti triukšmą iš norimų signalų. Tačiau šie objektyvūs metodai ne visada atitinka klausytojų vertinimus, kas padaro kalbą lengvai suprantama. Čia pagelbės naujas modelis. Naudodamas suvokimą kaip mokymo įrankį, modelis gali efektyviai pašalinti nepageidaujamus garsus, tobulindamas kalbos kokybę.

Studija, paskelbta žurnale IEEE Xplore, sutelkė dėmesį į vienkanalio kalbos pagerinimą – kalbą, kuri sklinda iš vieno garso kanalo. Tyrėjai treniravo modelį naudodamiesi dviem tyrimų rinkiniais, kuriuose buvo įrašai žmonių kalbėjimo, kurių dalis buvo nusistovėjusi fone. Klausytojai tuomet įvertino kiekvieno įrašo kalbos kokybę nuo 1 iki 100 balų skalėje.

Tai, kas išskiria šią studiją nuo kitų, yra jos remiamasis subjektyvi garso kokybės prigimtis. Įtraukdama žmogaus vertinimus apie garso kokybę, modelis naudoja papildomą informaciją, kad geriau pašalintų triukšmą. Tyrėjai taikė bendrąjį mokymąsi, kuris apjungia specializuotą kalbos kokybės kalbos modulį su prognozavimo modeliu, kuris gali įvertinti vidutinį nuomonės rezultatų skaičių, kurį klausytojai duotų triukšmingam signalui.

Rezultatai buvo įspūdingi. Naujas metodas sistemingai lenkė kitus modelius, vertinant objektyvius kriterijus, tokius kaip suvokiamoji kokybė, suprantamumas ir žmogaus įvertinimai. Ši permaina svarbiai įtakoja klausos aparatus, kalbos atpažinimo programas, kalbinti patvirtinimo programų ir beįrangos komunikacijos sistemų pagerinimą.

Tačiau garso kokybės žmogaus suvokimu yra iššūkių. Triukšmingo garso įvertinimas yra labai subjektyvus ir priklauso nuo individų girdėjimo gebėjimų ir patirties. Veiksniai, tokie kaip klausos aparatai ar kochlėariniai implantai, taip pat gali paveikti žmogaus suvokimą apie jo garsinę aplinką. Nepaisant šių iššūkių, tyrėjai siekia tobulinti savo modelį, įtraukdami žmogaus subjektyvius vertinimus, kad galėtų tvarkyti dar sudėtingesnes garso sistemas ir atitikti žmogaus vartotojų lūkesčius.

Toliau tyrėjai numato ateitį, kurioje panašiai kaip derinimo tikrovės įrenginiams vaizdams, technologijos realiuoju laiku praturtins garso patirtį. Tęsiant žmogaus suvokimo įtraukimą į mašininio mokymo AI procesą, šis laukas gali dar labiau progresuoti ir atverti kelią išskirtiniam garso pagerinimui inovacijų.

The source of the article is from the blog aovotice.cz