پیشرفت‌های جدید در مدل‌های متن به گفتار: باز کردن جملات طبیعی با BASE TTS

بازگشت به صفحه نخست

کارشناسان و پژوهشگران آمازون در حوزه فناوری متن به گفتار یک پیشرفت قابل توجه در تکنولوژی متن به گفتار داشته‌اند. آنها بزرگترین مدل تاکنون را آموزش داده‌اند که توانایی بهبود یافته در گفتار جملات پیچیده بطور طبیعی را به ارمغان می‌آورد. این پیشرفت می‌تواند مرحله‌ای حیاتی در از بین بردن پدیده دره وحشتناک باشد که سابقهٔ تلاش‌های قبلی در ایجاد صداهای شبیه به انسان را داشته است.

بر خلاف مدل‌های زبان قبلی که با افزایش اندازه، به‌طور تدریجی بهبود می‌یافتند، مدل جدید به نام BASE TTS، از لحاظ عملکرد یک پیشرانه بهبود بزرگی را در صورت عبور از حد مشخصی از اندازه نشان می‌دهد. پژوهشگران آمازون AGI به‌طور طولانی مدت مشکوک بودند که الگوهای مشابه رشد در مدل‌های متن به گفتار قابل مشاهده باشد و آخرین تحقیقات آنها این فرضیه را تایید می‌کند.

BASE TTS از ۱۰۰٬۰۰۰ ساعت دادهٔ سخنرانی ملک عمومی استفاده می‌کند که در غالب زبان انگلیسی و با بخش‌هایی در زبان‌های آلمانی، هلندی و اسپانیایی، قرار دارد و خیره‌کننده ۹۸۰ میلیون پارامتر را تشکیل می‌دهد. این مدل، بزرگترین مدل این نوع است تا به امروز. در ضمن، تیم آموزش نسخه‌های کوچکتر این مدل با ۴۰۰ میلیون و ۱۵۰ میلیون پارامتر آموزش داده‌اند تا درک بهتری از زمان ظهور رفتارهای ناگهانی کسب کنند.

اگرچه بهبود کیفیت گفتار خود به تنهایی به مدل‌های قبلی نسبت به ضعف در مدل‌های قبلی مقایسه شود، اما BASE TTS توانایی‌های جدیدی را در کنترل وظایف هوشمند مصاحبه به‌نمایش می‌گذارد. پژوهشگران با استفاده از مثال‌های متنی چالش‌برانگیزی که به شناختی پیچیده به وضوح به چالش کشیدن موتورهای متن به گفتار سنتی معروف هستند، عملکرد مدل را آزمایش کردند. این مثال‌ها شامل اسم‌های مرکب، سخنان احساسی، کلمات خارجی، همزادی‌شناسی، علائم نگارشی، پرسش و پیچیدگی‌های نحوی می‌شوند.

BASE TTS سطح قابل توجهی از دقت و طبیعیت را در تلفظ کلمات و عبارات چالش‌برانگیز نسبت به همتایانش مانند تورتویز و والی-ای نشان می‌دهد. این مدل توانست جملات حیات باغی را پردازش کند، تاکید روی استرس عبارت‌های مرکب بلند را انجام دهد، گفتارهای احساسی یا به زمزمه به صورت صحیحی تولید کند، کلمات خارجی و علائم نگارشی را به درستی بیان کند و پیچیدگی‌های نحوی را کنترل کند.

اگرچه مثال‌های انتخاب شده در وب‌سایت پژوهشگران عمدتاً با هدف انتخاب توجیه‌های کنونی انتخاب شده‌اند، اما نمایشی قدرتمند از توانمندی‌های پیشرفته BASE TTS را ارائه می‌دهند. با این پیشرفت، آیندهٔ تکنولوژی متن به گفتار به نظر واعده است و راهی را برای صداهای طبیعی و شبیه به انسان در کمکان مجازی، کتاب‌های صوتی و دیگر برنامه‌هایی که از گفتار مصنوعی استفاده می‌کنند به‌وجود می‌آورد.

بخش سوالات متداول:
1. اهمیت پیشرفت حاصل در فناوری متن به گفتار توسط پژوهشگران آمازون چیست؟
– این پیشرفت مرحله‌ای حیاتی در از بین بردن پدیدهٔ دره وحشت‌ناک و ایجاد صداهای مشابه به انسان را به ارمغان می‌آورد.

2. مدل جدید BASE TTS چگونه با مدل‌های زبانی قبلی متفاوت است؟
– به خلاف مدل‌های قبلی، BASE TTS یک پیشرانهٔ قابل توجه را در صورت عبور از حد مشخصی از اندازه نشان داده است، تا به جای بهبود تدریجی با افزایش اندازه، اتفاق باید افتد.

3. هر چقدر مدل BASE TTS بزرگ است؟
– BASE TTS از ۱۰۰٬۰۰۰ ساعت دادهٔ سخنرانی ملک عمومی استفاده می‌کند و ۹۸۰ میلیون پارامتر را دارد، که آن را بزرگترین مدل این نوع تا به امروز می‌کند.

4. چه زبان‌هایی در داده‌های گفتاری استفاده شده برای BASE TTS وجود دارد؟
– این مدل به طور عمده از داده‌های سخنرانی انگلیسی استفاده می‌کند، اما شامل بخش‌هایی در زبان‌های آلمانی، هلندی و اسپانیایی نیز می‌شود.

5. توانایی‌های ناگهانی برجسته‌ای در BASE TTS وجود دارد؟
– BASE TTS توانایی‌های قابل توجهی را در کنترل و طبیعیت تلفظ کلمات و عبارات چالش‌برانگیز نشان می‌دهد، مانند تلفظ درست کلمات و عبارات چالش‌برانگیز، پارس کردن جملات حیات باغی، تولید گفتار احساسی یا به زمزمه، بیان کلمات خارجی و علائم نگارشی درست و کنترل پیچیدگی‌های نحوی.

تعاریف:
– فناوری متن به گفتار: تبدیل متن نوشتاری به کلمات گفتاری با استفاده از الگوریتم‌ها و مدل‌های کامپیوتری.
– پدیده دره وحشت‌ناک: احساس ناراحتی و عدم آسایشی که در زمانی پیدا می‌شود که ربات انسان‌نما یا صدای مصنوعی به شکلی نزدیک به انسان باشد، اما توانایی به طور قانعانه شبیه به انسان را نداشته باشد.
– پارامترها: دربارهٔ مدل‌های یادگیری ماشین، پارامترها مقادیر عددی هستند که مدل از داده‌های آموزش به آن یاد می‌گیرد و از آن‌ها برای پیش‌بینی‌ها استفاده می‌کند.

پیشنهاد می‌شود به لینک‌های مرتبط زیر مراجعه کنید:
– آمازون.کام
– ترکیب متن به گفتار

The source of the article is from the blog toumai.es