تعزيز جودة الصوت باستخدام قوة إدراك الإنسان

في اختراق مثير، قدم الباحثون نموذجًا جديدًا للتعلم العميق لديه القدرة الكبيرة على تحسين جودة الصوت في سيناريوهات الحياة الحقيقية. بالاستفادة من قوة إدراك الإنسان، يتفوق النموذج على النهج التقليدي بما يضمن تضمين التقييم الذاتي لجودة الصوت.

اعتمدت الطرق التقليدية للتقليل من ضجيج الخلفية على خوارزميات الذكاء الاصطناعي لاستخراج الضجيج من الإشارات المرغوب فيها. ومع ذلك، فإن هذه الطرق الموضوعية لا تتطابق دائماً مع تقييمات المستمعين لما يجعل الكلام سهلاً للفهم. وهنا يأتي النموذج الجديد ليحل المشكلة. من خلال استخدام الإدراك كأداة تدريب، يمكن للنموذج إزالة الأصوات غير المرغوب فيها بشكل فعال وتحسين جودة الكلام.

ركزت الدراسة، التي تم نشرها في مجلة IEEE Xplore على تحسين تعزيز الكلام الأحادي – وهو الكلام الذي يأتي من قناة صوت واحدة. قام الباحثون بتدريب النموذج على مجموعتي بيانات تحتوي على تسجيلات لأشخاص يتحدثون، تضمنت بعضها أصواتاً مشوشة بضوضاء الخلفية. ثم قيم المستمعون جودة الكلام في كل تسجيل على مقياس يتراوح من 1 إلى 100.

ما يميز هذه الدراسة عن الأخرى هو الاعتماد على طبيعة جودة الصوت الشخصية. من خلال دمج تقييمات البشر من الصوت، يستفيد النموذج من معلومات إضافية لإزالة الضوضاء بشكل أفضل. قام الباحثون باستخدام طريقة التعلم المشترك التي تجمع بين وحدة لغة متخصصة في تحسين الكلام ونموذج توقع يمكنه تقدير المتوسط ​​للتقييم الذاتي الذي سيعطيه المستمعون لإشارة مشوشة.

كانت النتائج مذهلة، حيث تفوق النهج الجديد بشكل مستمر على النماذج الأخرى، حسب المقاييس الوجوهية مثل الجودة الإدراكية والوضوح وتقييمات البشر. لهذا الاختراق آثار كبيرة على تحسين أجهزة الإستماع وبرامج التعرف على الكلام وتطبيقات التوثيق الصوتي وأنظمة الاتصال الحرة.

ومع ذلك، هناك تحديات عندما يتعلق الأمر باستخدام إدراك الإنسان لجودة الصوت. تقييم الصوت المضطرب هو أمر شخصي للغاية ويعتمد على قدرات سمع الأفراد وتجاربهم. عوامل مثل أجهزة الإستماع أو زراعات الأذن الصناعية يمكن أن تؤثر أيضًا على تصور شخص لبيئته الصوتية. على الرغم من هذه التحديات، يسعى الباحثون إلى ضبط نموذجهم عن طريق تضمين التقييمات الذاتية للبشر ومعالجة أنظمة الصوت المعقدة وتلبية توقعات المستخدمين البشر.

ونظرًا للمستقبل، يتخيل الباحثون مستقبلًا يشابه أجهزة الواقع المعزز للصور، حيث ستعزز التكنولوجيا الصوت في الوقت الحقيقي لتحسين تجربة الاستماع العامة. من خلال مواصلة إشراك إدراك الإنسان في عملية الذكاء الاصطناعي وتعلم الآلة، يمكن للمجال أن يتقدم أكثر ويمهد الطريق لابتكارات ثورية في تحسين الصوت.

The source of the article is from the blog radardovalemg.com

Privacy policy
Contact