המחקר של Microsoft Research Asia מפתח AI שמעניקה חיים לפורטרטים ושרבוטים

החדשנות בתחום המד"ח במיקרוסופט מביאה תמונות לחיים עם קול ותנועה

במעבר טכנולוגי, מחקרי מיקרוסופט באסיה חשפו כלי ניסוי בשם VASA-1, אשר מיועד להנפיש תמונות סטילטיות וציורים. הכלי מייצר בצורה ערמומה פנים נראות חיוניות מתוך תמונות או איור בזמן אמת כאשר מופעל בקלט שמע.

מגוון של קטעי וידאו לדוגמה של הטכנולוגיה זמינים באתר הפרויקט. ההדגמות מראות רמת איכות מרשימה, כאשר כמה מהן יוצאות כמעט שקריות. אך בבדיקה מקרוב ניתן לשים לב לאי קביעות קלות שמרמזות על יצירה מלאכותית, כמו רוחב שיניים משתנה או קו חניקה רועד.

מודעים לשימוש אפשרי חוסם של טכנולוגיה כזו, הצוות שעומד מאחורי VASA-1 בחר לא לחשוף קטעי קוד לציבור עד לקבלת אישור לשימוש כשיר ואחראי. במרוצת אין תצפיתים מסוימים לגבי התכלילים לאיתתו זאת, אך הכוונה ברורה: העדיפות היא לשימוש אתי.

היעילות הפוטנציאלית ובעיות המוסר עם VASA-1

למרות הדאגות הללו, המפתחים ממליצים על בטיחות סיבות. VASA-1 עשויה לאפשר לאנשים עם קשיי תקשורת לפעול בצורה יותר קלה, להטמיע עזר טיפולי, ולספק חברות לאלה שבבדידות או מתמודדים עם אובדן.

המודל התאמן בסט נתונים של VoxCeleb2, שהוא כולל מעל מיליון קטעי דיבור והינו מתאים להנפיש מלאכות מוכרות, כמו תמונת מונה ליזה.

פרסום המדע המנפיש את VASA-1 ניתן למצוא בשרת מקדמי arXiv, אשר מקל על ביקורת על ידי עמיתים ודיון בתוך קהילה מדעית.

שאלות ותשובות

1. מהו VASA-1?
VASA-1 היא כלי ניסוי שפותח על ידי מיקרוסופט באסיה שיכול להנפיש תמונות סטילטיות וציורים על ידי יצירת פנים חיוניות ודוברות שמתאימות לשיחה שמעית בזמן אמת.

2. כיצד VASA-1 מוצגת לציבור?
קטעי וידאו לדוגמה המראים את היכולות של VASA-1 זמינים באתר הפרויקט, מדגמים את רמת המאמינות והאנימציה שהכלי יכול להשיג.

3. על אילו סט נתונים הורך להתאם VASA-1?
הסט נתונים VoxCeleb2, שכולל מעל מיליון קטעי דיבור, הורך להתאם את המודל ולאפשר לו להנפיש רגשות פנים רחבים.

4. היכן ניתן למצוא את הפרסום המדעי אודות VASA-1?
הפרסום הממחיש את VASA-1 נמצא בשרת הפרינטים של arXiv, המשפיע עליו ביקורת על ידי עמיתים ודיונים מדעיים.

The source of the article is from the blog radardovalemg.com