חברות AI מתמודדות עם קושי ברכישת נתוני אימון באיכות גבוהה

חברות בתחום הבינה מלאכותית (AI) נתקלות באתגר ניכר ברכישת נתוני אימון באיכות גבוהה, כפי שמדווחים בדו"ח אחרון. הבעיה הזו דחפה את החברות לחקור שיטות שונות לשחרר את המכשול, גם אם זה אומר להשתגע אל תחומי חוק זכויות יוצרים בתחום AI.

אחת החברות המובילות, OpenAI, מצאה את עצמה בצורך דחוף בנתוני אימון ופיתחה את דגם ההמרת שמע שלה, Whisper, כפתרון. דגם זה המריץ מעל מיליון שעות של וידאו ב-YouTube, שנמצאו מאוחסנות השתמשו בהם לאימון GPT-4, דגם השפה המתקדם ביותר של OpenAI. בעוד OpenAI הכירה באפשריות המשפטיות של שיטה זו, היא האמינה שזה מתוך שימוש הוגן. כדאי לציין כי נשיא OpenAI, גרג ברוקמן, ניהל אישית את איסוף הוידאו ששמש לאימון.

בתגובה לטענות אלו, דוברת של OpenAI, לינדזי הלד, ציינה שהחברה מקנה נתונים "ייחודיים" לכל אחד מהדגמים שלה כדי לשפר את ההבנה שלהם על העולם. הלד הסבירה כי OpenAI משתמשת במקורות נתונים שונים, כולל נתונים שזמינים לציבור ושותפויות לא ציבוריות, ומשקללת את יצירת נתונים סינטטיים. החברה הוציאה את מלאי הנתונים השימושיים שלה ב-2021 והתחילה לשקול את המראה של וידאו מ-YouTube, פודקסטים וספרי שמע, כמו גם מקורות כמו קוד מחשב מ-Github, מסדי נתוני תנועה בשחמט, ותוכן לימודי מ-Quizlet.

Google, עוד לועזי ראשי בתחום הבינה המלאכותית, נתקל גם הוא באתגרים ברכישת נתוני אימון. הדובר של החברה, מאט בריינט, הגיב לדיווחים ש-OpenAI ניצלה תוכן מ-YouTube לצורך הכשרת דגמים. בריינט הדגיש שחליזה לא מורשית או הורדה של תוכן מ-YouTube מוגבלת מאוד על פי תקנותיהם. Google הודה שהכשירה את הדגמים שלה על תוכן ב-YouTube בהתאם להסכמים שנעשו עם יוצרי תוכן ב-YouTube. בנוסף, החברה הפעילה שינויים במדיניות הפרטיות שלה על מנת להרחיב את הדרכים שבהן היא יכולה לנצל נתוני הצרכנים, כגון לשקול כלים משרדיים כמו Google Docs.

Meta, בעבר ידועה כ-Facebook, נתקלה בחסרון דמויות וקשיים דומים ברכישת נתוני הכשרה איכותיים. הקלטות שנמצאו על ידי The New York Times חשפו שיחות בצוות הAI של Meta לגבי השימוש שאינו מורשה ביצירות בעלות זכויות יוצרים. Meta חקרה שיטות שונות להשתוות עם OpenAI, גם על ידי רכישת רשיונות לספרים וגם באפשרות רכישה של חברת הוצאת ספרים גדולה בכלל. השינויים הקשורים לפרטיות שביצעה Meta בעקבות פרשת קיימברידג' אנליטיקה גם הגבילו את יכולתה לנצל נתוני צרכנים.

חברות AI, כולל OpenAI, Google ואחרות, מתמודדות עם חסרון הנתונים לכשרה של הדגמים שלהם, והם תלויים למעלה בנפח הנתונים לשיפורם. הצריכה המהירה של תוכן חדש עשויה לעבור את כוח הכוח שלה לרכישת נתוני כאלה עד 2028. באורך של אתגר זה, פתרונות אפשריים שנזכרו בדו"חות אחרונים כוללים את האימון של דגמים על נתונים סינטטים הנוצרים על ידי הדגמים שלהם או באמצעות נושאיות לימוד בפניות. עם זאת, עוד לא הוכחה יעילותן של שיטות אלה.

שאלות נפוצות

1. למה חברות AI מתמודדות עם קושי ברכישת נתוני אימון באיכות גבוהה?

חברות AI שואפות לכך שיהיה להן נתוני אימון באיכות גבוהה על מנת לשפר את הדגמים שלהן. בעוד זמינותם של נתונים מסוג זה מתקצרת, הבעיה רצינית לחברות אלו.

2. איך OpenAI עוסקת בבעיה של החוסר בנתונים?

OpenAI לקחה לעצמה לשובר דרך בשיטות שונות לטיפול בבעית החוסר בנתוני הכשרה. שיטה אחת כללה פיתוח של דגם המרת שמע בשם Whisper, שהמיר מיליוני שעות של וידאו מ- YouTube על מנת להכשיר את דגם השפה שלה. עם זאת, שיטה זו העלתה עיוותים משפטיים אפשריים.

3. איך Google מגיבה לטענות לגבי השימוש בלא רשות בתוכן של YouTube?

Google אוסרת בצורה קפדנית על חילוץ או הורדת תוכן מ-YouTube בלא רשות, כפי שנאמר בתנאי השימוש שלה. יחד עם זאת, החברה מכירה בכך שהכשירה דגמים שלה על תוכן נבחר ב-YouTube לפי הסכמים שנכרתו עם יוצרי התוכן ב-YouTube.

4. כיצד חברות AI חוקרות פתרונות אלטרנטיביים כדי לשחרר את החוסר בנתונים?

חברות AI חוקרות מחשבות שונות לטיפול בבעיה של החוסר בנתונים. כמה פתרונות אפשריים כוללים אימון של דגמים על נתונים סינטטיים שנוצרים על ידי הדגמים שלהם או אימון באמצעות כלים של למידת תכנית, כאשר הדגמים מקבלים נתונים איכותיים בסדר מסוים לשיפור ההבנה שלהם.

מקורות:

[The New York Times]
[The Wall Street Journal]
[The Verge]
[Getty Images]

מאת [Your Name], אוהב טכנולוגיה וכותב בתחום הטכנולוגיות הזורמות.

The source of the article is from the blog anexartiti.gr