Nyt Framework DiarizationLM Bruger Store Sprogmodeller til at Forbedre Nøjagtigheden af Speaker Diarization

Forskere hos Google har udviklet et banebrydende framework kaldet DiarizationLM, som har potentialet til at revolutionere speaker diarization. Denne teknik, som involverer identifikation af individuelle stemmer i miljøer med flere talere, er afgørende for forskellige anvendelser som fx konferenceopkald og transskription af juridiske procedurer. Traditionelle diarization metoder har dog ofte udfordringer med overlappende tale og variationer i stemme modulering, hvilket resulterer i unøjagtigheder i identifikationen af talere.

DiarizationLM tackler disse udfordringer ved at udnytte kraften i store sprogmodeller (LLMs). Det tager output fra automatisk talegenkendelse (ASR) og speaker diarization systemer og forbedrer dem ved hjælp af LLMs. Ved at analysere de semantiske og kontekstuelle nuancer af taleindholdet forbedrer frameworket nøjagtigheden af speaker attribuering, uden at det kun afhænger af akustiske signaler.

DiarizationLM’s indre funktioner er fascinerende. Det oversætter først output fra ASR og speaker diarization systemer til en kompakt tekstformat, som fungerer som en prompt for LLMs til at forbedre diarization resultaterne. Ved at analysere tekstindholdet kan LLMs mere præcist tilskrive talesegmenter til de rigtige talere og reducere diarization-fejl. Frameworket bruger en finjusteringsmodel som fx PaLM 2-S til at målrette og rette disse unøjagtigheder.

DiarizationLM har demonstreret imponerende præstation ved at reducere fejlrate i ord-diarization. Når det blev testet på datasæt som Fisher og Callhome, opnåede frameworket betydelige relative reduktioner i fejlrate i ord-diarization. Disse forbedringer blev observeret på tværs af forskellige taleområder, hvilket understreger DiarizationLM’s alsidighed.

Dette innovative framework repræsenterer en betydelig fremskridt inden for speaker diarization. Ved at integrere de analytiske evner hos store sprogmodeller i efterbehandlingen af diarization-outputs adresserer DiarizationLM længevarende udfordringer ved præcis speaker attribuering. Det har potentialet til at omdefinere standarderne for speaker diarization og levere mere præcise og nuancerede fortolkninger af lyd med flere talere.

The source of the article is from the blog coletivometranca.com.br