بازگشت به صفحه نخست
کارشناسان و پژوهشگران آمازون در حوزه فناوری متن به گفتار یک پیشرفت قابل توجه در تکنولوژی متن به گفتار داشتهاند. آنها بزرگترین مدل تاکنون را آموزش دادهاند که توانایی بهبود یافته در گفتار جملات پیچیده بطور طبیعی را به ارمغان میآورد. این پیشرفت میتواند مرحلهای حیاتی در از بین بردن پدیده دره وحشتناک باشد که سابقهٔ تلاشهای قبلی در ایجاد صداهای شبیه به انسان را داشته است.
بر خلاف مدلهای زبان قبلی که با افزایش اندازه، بهطور تدریجی بهبود مییافتند، مدل جدید به نام BASE TTS، از لحاظ عملکرد یک پیشرانه بهبود بزرگی را در صورت عبور از حد مشخصی از اندازه نشان میدهد. پژوهشگران آمازون AGI بهطور طولانی مدت مشکوک بودند که الگوهای مشابه رشد در مدلهای متن به گفتار قابل مشاهده باشد و آخرین تحقیقات آنها این فرضیه را تایید میکند.
BASE TTS از ۱۰۰٬۰۰۰ ساعت دادهٔ سخنرانی ملک عمومی استفاده میکند که در غالب زبان انگلیسی و با بخشهایی در زبانهای آلمانی، هلندی و اسپانیایی، قرار دارد و خیرهکننده ۹۸۰ میلیون پارامتر را تشکیل میدهد. این مدل، بزرگترین مدل این نوع است تا به امروز. در ضمن، تیم آموزش نسخههای کوچکتر این مدل با ۴۰۰ میلیون و ۱۵۰ میلیون پارامتر آموزش دادهاند تا درک بهتری از زمان ظهور رفتارهای ناگهانی کسب کنند.
اگرچه بهبود کیفیت گفتار خود به تنهایی به مدلهای قبلی نسبت به ضعف در مدلهای قبلی مقایسه شود، اما BASE TTS تواناییهای جدیدی را در کنترل وظایف هوشمند مصاحبه بهنمایش میگذارد. پژوهشگران با استفاده از مثالهای متنی چالشبرانگیزی که به شناختی پیچیده به وضوح به چالش کشیدن موتورهای متن به گفتار سنتی معروف هستند، عملکرد مدل را آزمایش کردند. این مثالها شامل اسمهای مرکب، سخنان احساسی، کلمات خارجی، همزادیشناسی، علائم نگارشی، پرسش و پیچیدگیهای نحوی میشوند.
BASE TTS سطح قابل توجهی از دقت و طبیعیت را در تلفظ کلمات و عبارات چالشبرانگیز نسبت به همتایانش مانند تورتویز و والی-ای نشان میدهد. این مدل توانست جملات حیات باغی را پردازش کند، تاکید روی استرس عبارتهای مرکب بلند را انجام دهد، گفتارهای احساسی یا به زمزمه به صورت صحیحی تولید کند، کلمات خارجی و علائم نگارشی را به درستی بیان کند و پیچیدگیهای نحوی را کنترل کند.
اگرچه مثالهای انتخاب شده در وبسایت پژوهشگران عمدتاً با هدف انتخاب توجیههای کنونی انتخاب شدهاند، اما نمایشی قدرتمند از توانمندیهای پیشرفته BASE TTS را ارائه میدهند. با این پیشرفت، آیندهٔ تکنولوژی متن به گفتار به نظر واعده است و راهی را برای صداهای طبیعی و شبیه به انسان در کمکان مجازی، کتابهای صوتی و دیگر برنامههایی که از گفتار مصنوعی استفاده میکنند بهوجود میآورد.
بخش سوالات متداول:
1. اهمیت پیشرفت حاصل در فناوری متن به گفتار توسط پژوهشگران آمازون چیست؟
– این پیشرفت مرحلهای حیاتی در از بین بردن پدیدهٔ دره وحشتناک و ایجاد صداهای مشابه به انسان را به ارمغان میآورد.
2. مدل جدید BASE TTS چگونه با مدلهای زبانی قبلی متفاوت است؟
– به خلاف مدلهای قبلی، BASE TTS یک پیشرانهٔ قابل توجه را در صورت عبور از حد مشخصی از اندازه نشان داده است، تا به جای بهبود تدریجی با افزایش اندازه، اتفاق باید افتد.
3. هر چقدر مدل BASE TTS بزرگ است؟
– BASE TTS از ۱۰۰٬۰۰۰ ساعت دادهٔ سخنرانی ملک عمومی استفاده میکند و ۹۸۰ میلیون پارامتر را دارد، که آن را بزرگترین مدل این نوع تا به امروز میکند.
4. چه زبانهایی در دادههای گفتاری استفاده شده برای BASE TTS وجود دارد؟
– این مدل به طور عمده از دادههای سخنرانی انگلیسی استفاده میکند، اما شامل بخشهایی در زبانهای آلمانی، هلندی و اسپانیایی نیز میشود.
5. تواناییهای ناگهانی برجستهای در BASE TTS وجود دارد؟
– BASE TTS تواناییهای قابل توجهی را در کنترل و طبیعیت تلفظ کلمات و عبارات چالشبرانگیز نشان میدهد، مانند تلفظ درست کلمات و عبارات چالشبرانگیز، پارس کردن جملات حیات باغی، تولید گفتار احساسی یا به زمزمه، بیان کلمات خارجی و علائم نگارشی درست و کنترل پیچیدگیهای نحوی.
تعاریف:
– فناوری متن به گفتار: تبدیل متن نوشتاری به کلمات گفتاری با استفاده از الگوریتمها و مدلهای کامپیوتری.
– پدیده دره وحشتناک: احساس ناراحتی و عدم آسایشی که در زمانی پیدا میشود که ربات انساننما یا صدای مصنوعی به شکلی نزدیک به انسان باشد، اما توانایی به طور قانعانه شبیه به انسان را نداشته باشد.
– پارامترها: دربارهٔ مدلهای یادگیری ماشین، پارامترها مقادیر عددی هستند که مدل از دادههای آموزش به آن یاد میگیرد و از آنها برای پیشبینیها استفاده میکند.
پیشنهاد میشود به لینکهای مرتبط زیر مراجعه کنید:
– آمازون.کام
– ترکیب متن به گفتار
The source of the article is from the blog toumai.es