تحسين الدقة في تعرف الكلام التلقائي باستخدام نهج مبتكر

في دراسة حديثة، قام الباحثون من جامعة الملك عبد الله للعلوم والتكنولوجيا وشركة نفيديا بتطوير نهج جديد لتحسين دقة نظم تعرف الكلام التلقائي (ASR). تستخدم تقنية ASR على نطاق واسع في الأجهزة الاستهلاكية مثل السماعات الذكية لتحويل اللغة المنطوقة إلى نص مكتوب.

يجمع نهج الفريق الذي يُطلق عليه Whispering-LLaMA بين عنصرين لتحسين دقة تعرف الكلام التلقائي. يعتبر العنصر الأول هو نموذج الأساس النطاق Whisper ASR، الذي تم تدريبه على كمية هائلة من البيانات المسموعة متعددة اللغات. يقوم هذا النموذج بإنشاء فرضيات متعددة لعينات الكلام. العنصر الثاني هو نموذج اللغة LLaMA، الذي يستخدم لإنشاء تموضع مصحح للأخطاء باستخدام معرفته باللغة.

ما يميز نهج Whispering-LLaMA عن النهج السابق هو قدرته على دمج نماذج البيانات الوسائط الإضافية. يتطلب تعرف الكلام التلقائي معلومات صوتية (أصوات في بيئة المتحدث) ومعلومات لغوية (معرفة محددة لنطاق معين). باستخدام أداة لالتقاط ومعالجة كلا من أنواع البيانات، يعتقد الباحثون أن النظام يمكنه أن يقدم توقعات أكثر دقة.

قام الفريق بإجراء تقييمات باستخدام مجموعة متنوعة من مجموعات بيانات تعرف الكلام التلقائي ووجدوا أن دمج وسائط البيانات في Whispering-LLaMA أدى إلى تحسين ملحوظ بنسبة 37.66٪ في معدل أخطاء الكلمات مقارنة بالأنظمة الموجودة. تشير هذه النتائج الواعدة إلى إمكانية تطوير جيل جديد من أدوات تعرف الكلام التلقائي عالية الدقة.

وبهدف تشجيع المزيد من الأبحاث والتطوير في هذا المجال، قام الفريق بنشر الشيفرة المصدرية والنماذج المدربة من قبلهم بشكل مفتوح، مما يتيح للباحثين الآخرين بناء على أعمالهم.

هذا النهج المبتكر في تعرف الكلام التلقائي ليس فقط يعزز سهولة وإمكانية الوصول إلى الأجهزة الاستهلاكية، بل يمهد أيضًا الطريق لتقدم في تكنولوجيا التعرف على الكلام. مع التحسينات المستمرة في الدقة، فإن نظم تعرف الكلام التلقائي على وشك أن تحدث ثورة في كيفية تفاعلنا مع التكنولوجيا وتجعل واجهات الصوت أكثر موثوقية وكفاءة.

The source of the article is from the blog agogs.sk

Privacy policy
Contact