אמזון Base TTS: מהפכה בטכנולוגיה של המרה מטקסט לדיבור עם הגייה טבעית

Amazon.com Inc. עשתה התקדמות מרשימה בתחום טכנולוגיית ההמרה מטקסט לדיבור עם הפיתוח של Base TTS. הדגם החדשני הזה מסוגל להגות מילים בצורה טבעית ומועדפת על פני דגמים קודמים. צוות המחקר של אמזון מתאר את הארכיטקטורה והפונקציות של Base TTS במאמר אקדמאי אחרון שפרסם, שחושף את הפוטנציאל שלו לשנות את הדרך שבה אנו משתמשים עם הבינה המלאכותית.

אחד הנקודות המרשימות ביותר של Base TTS היא גודלו המרשים. עם כ-1 מיליארד פרמטרים בערך, הוא הרשת העצבית הגדולה ביותר כיום בקטגורייתו. פרמטרים אלו קובעים כיצד הבינה המלאכותית מעבדת מידע והרחבת מספרם מאפשרת לדגם לבצע מגוון רחב יותר של משימות. כדי להכשיר את Base TTS, החוקרים השתמשו במערכת מידע מורחבת של אודיו ממקורות ציבוריים בעלת 100 אלף שעות של תוכן מדהים. רוב המערכת המידע מורכבת מהקלטת בשפה האנגלית, עם תוכן בשפה שאינה אנגלית בחשיבות הנותרת 10%.

כדי להבטיח אימון מיטבי, הנתונים האודיו נחלקו לקבצים קטנים יותר, כאשר כל קובץ מכיל עד 40 שניות של תכתובת. התוצאות של המחקר מדגישות כיצד הדגם התפתח כדי להראות פרוסודיה טבעית, בעיקר בעיבוד משפה מרובה-טקסטי. Base TTS כולל שני דגמים נפרדים של עבודה עם בינה מלאכותית. הדגם הראשון, המבוסס על ארכיטקטורת Transformer שמשפרת את GPT-4 של OpenAI, ממיר את הטקסט שהמשתמש הזין לייצוגים מתמטיים אבסטרקטיים שנקראים speechcodes. דגם השני של הרשת העצבית מעבד את speechcodes וממיר אותם לפלט אודיו באיכות גבוהה.

הדגם השני של הרשת העצבית בתוך Base TTS מסוגל לשפר באופן משמעותי את חוויית המשתמש על-ידי שמירה בשלב העיבוד על הרעשים הבלתי נחוצים ודחיסת speechcodes כדי להאיץ את העיבוד. התוצאה הסופית היא מערכת שמתרגמת בצורה חלקה טקסט להצגת מבנה של ספטרוגרמות, הן התיאום הוויזואלי של הגלי רעש שניתן להמיר לדיבור חיוני באמצעות בינה מלאכותית.

באמצעות הערך המערכתי, החוקרים של אמזון הוכיחו שהדגם Base TTS עולה על מודלים ישנים באיכות הדיבור והטביעה הטבעית. הוא מצליח להגות מילים וסמלים בדיוק ולטפל באופן ללא עוגן של שאלות ומילים זרות במשפטים בשפה האנגלית. זהו סט יכולת מרשימה לקחת בחשבון שהדגם לא הוכשר במיוחד עבור חלק מסוגי המשפטים הכלולים במערך השאלון להערכה.

דגם ה-TTS Base של אמזון מייצג קפיצה משמעותית קדימה בתחום טכנולוגיית ההמרה מטקסט לדיבור. היכולת שלו ליצור אודיו באיכות גבוהה במסגרות שמיעה, לתמלול ספרים שמע ולכלי נגישות, יש להבטיחו פוטנציאל עצום.

שאלות נפוצות (FAQ)

The source of the article is from the blog kunsthuisoaleer.nl

Privacy policy
Contact