چارچوب جدید DiarizationLM از مدل های زبانی بزرگ برای افزایش دقت تمییز دهی صدا استفاده می کند

محققان در گوگل چارچوبی نوآورانه به نام DiarizationLM توسعه داده اند که قابلیت تجدید نظر در تمییز دهی صدا را در اختیار دارد. این تکنیک که شامل شناسایی صداهای فردی در محیط های چند صدا است، برای برنامه های مختلفی مانند تماس های کنفرانسی و تجزیه و تحلیل روند قضایی بسیار حیاتی است. با این حال، روش های سنتی تمییز دهی در مواجهه با چالش هایی مانند تداخل صدا و تغییرات گویش صدا، باعث نادقیقی در شناسایی صحیح سخنرانان می شود.

DiarizationLM با بهره گیری از قدرت مدل های زبانی بزرگ (LLMs) به دست آوردن این چالش ها را مدیریت می کند. این چارچوب با تجزیه و تحلیل نیوانس های معنایی و متنی محتوای گفتاری، دقت واگذاری سخنران بهبود می بخشد و از اتکا تنها بر سیگنال های صوتی فاصله می گیرد.

نحوه عملکرد DiarizationLM جالب است. ابتدا خروجی های سامانه تشخیص گفتار خودکار (ASR) و سیستم های تمییز دهی صدا به یک فرمت متنی فشرده تبدیل می شود که به عنوان پیام برای بهبود نتایج تمییز دهی توسط LLMs مورد استفاده قرار می گیرد. با تجزیه و تحلیل محتوای متنی، LLMs قادر به واگذاری دقیق تر بخش های گفتار به سخنرانان درست می شوند و اشتباهات تمییز دهی را کاهش می دهند. این چارچوب با استفاده از مدل های بهبود یافته نظیر PaLM 2-S، این ناهماهنگی ها را هدف قرار می دهد و آنها را اصلاح می کند.

DiarizationLM در کاهش نرخ خطاهای تمییز دهی کلمه ای عملکرد شگرفی را به اثبات می رساند. هنگام تست بر روی مجموعه داده هایی مانند Fisher و Callhome، این چارچوب کاهش نسبی قابل توجهی در نرخ خطاهای تمییز دهی کلمه ای داشته است. این بهبودها در دامنه های گفتاری مختلف رخ داده اند و تنوعقابلیت های DiarizationLM را نشان می دهند.

این چارچوب نوآورانه یک پیشرفت قابل توجه در تمییز دهی صدا را نشان می دهد. با یکپارچه کردن توانایی های تحلیلی مدل های زبانی بزرگ در فرآیند پس از تجزیه و تحلیل خروجی های تمییز دهی صدا، DiarizationLM با چالش های طولانی مدت مربوط به واگذاری سخنران حساسیت زیادی را به خرج می دهد. این چارچوب دارای پتانسیلی برای تعریف مجدد استانداردهای تمییز دهی صدا است و تفسیرهای دقیق و دقیق تری از صدای چند صدا ارائه می دهد.

The source of the article is from the blog toumai.es

Privacy policy
Contact