מודלים חדשי AI שנאמנו על ידי טקסטיות של יוטיוב עוררו דאגות זכויות יוצרים

לאחרונה, פועלות הטכנולוגיה OpenAI ו-Google נמצאות תחת הגלרות על האמון הסוקרט על מנת לאמן מודליהן של AI באמצעות טקסטים של סרטוני יוטיוב, באפשרותן שהדבר חורג מזכויות יוצרי התוכן. מדווחת על כך העיתון The New York Times, חושפת את פעולות הענקים הטכנולוגיים הללו ועל מאמציהם למקסם את זרימת הנתונים שמאחזים במערכות ה- AI שלהם. בעוד שחברות אלה ביצעו שימוש בשיטות שונות לקבלת נתונים בשפע, נטשלו שאלות ביחס לחוקיות השיטות שלהם.

נאמר על OpenAI שהשתמשה בכלי הזיהוי שלה Whisper לשיחה כדי לטקסטאכס את מעל מיליון שעות של סרטוני יוטיוב, שאז הותם נעשה שימוש לאמן את המחולל האחרון שלהם של טקסט לסרט, סורה, על פי דו"ח ה- NYT. זאת עוקבת אחרי מעשים קודמים של The Information הטוענים ש- OpenAI השתמשה בסרטוני יוטיוב ובפודקאסטים לאימון מערכות האינטרנט הכתובות שלהם. יש לציין, באופן משמעותי, כי נשיאת OpenAI, גרג ברוקמן, דווח כי עורכה בפרויקט זה.

קיימו גם דאגות לגבי פעילותה של Google, כפי שקובע שייט או הורדה לא מורשים של תוכן של יוטיוב אסורים. מגיד תקשורתי רשמי בשם מט בריאנט עבר על פרטים שבהם הוא ציין כי החברה לא הייתה מודעת לשימוש של OpenAI בסרטונים של יוטיוב וציין את הם לא מרעימים ממנה. עיתון ה- NYT ממליץ בקטעיו כי היו אנשים ב-Google שהיו מודעים לפעולות של OpenAI אך לא פעלו בהן, כנראה משום של-Google עצמה קיימת שימוש בעזרת הסרטונים של יוטיוב לאמן את מודלי ה- AI שלהם.

חשוב לציין כי Google מצהירת שהיא משתמשת רק בסרטונים שמייצרים שהסכימו להשתתף בתוכניות הניסיוניות שלהם. Engadget פנתה לגוגל ול- OpenAI לקבלת הערות על נושא זה.

שאלות נפוצות

1. האם OpenAI ו-Google מפרים זכויות יוצרים על ידי אימון מודלי ה- AI שלהם על טקסטים של סרטוני יוטיוב?
קיימות דאגות כי OpenAI ו-Google משתמשות בסרטי יוטיוב לאימון מודלי ה- AI שלהן עשויות להפר זכויות של יוצרים. דו"ח ה- The New York Times משקף את ההפרות האפשריות אלה, ומציין כי שאיבת תוכן או הורדתו ללא הרשות אינן מותרות. עם זאת, גוגל טוענת שהיא משתמשת רק בסרטונים של יוצרים שהסכימו להשתתף בתוכנית ניסיונית.

2. איזה גישה בחרה OpenAI באימון מודל ה- AI שלה?
כפי שנדווג, OpenAI השתמשה בכלי הזיהוי השקט Whisper שלה כדי לטקסטאכס מעל מיליון שעות של סרטוני יוטיוב, שהותמו לאימון מחולל הטקסט ל-סרט שלהם, סורה. הגישה הזו במטרה ליטול יתרת הנתונים הרבה לביצוע המופע היעיל של המודל ה- AI.

3. האם גוגל הודף את השימוש של OpenAI בסרטי יוטיוב לאימון?
גוגל ציינה כי היא לא הייתה מודעת לשימוש של OpenAI בסרטי יוטיוב לאימון מודלי ה- AI שלהם, וטינפק כי היא אינה תומכת בהרתמה או בהורדת תוכן לא מורשים. אך הדו"ח מראה כי חלק מהאנשים בגוגל היו מודעים לפעולות של OpenAI אך לא פעלו, אולי משום שגוגל עצמה משתמשת בסרטי יוטיוב לאימון מודלי ה- AI שלה.

4. באיזו שיטה הרחיבה גוגל את מדיניותה למידה, כפי שנמצא בדו"ח?
דו"ח ה- NYT חושף כי גוגל שינתה את מדיניות הפרטיות שלה ביוני 2022 על מנת לאחוד טווח רחב יותר של תוכן שזמין לציבור, כגון Google Docs ו- Google Sheets, לאימון מודלי ה- AI והמוצרים שלה. בכל זאת, ברייאנט הדגיש כי זה עשוי היה רק עם הסכמתם הביטויית של משתמשים שמעונינים להיכנס לתכונות הניסיוניות של גוגל. הוא ציין כי השינוי במדיניות לא הופיע להתחיל לאמן מודלי ה- AI שלהם על סוגים נוספים של נתונים.

5. האם OpenAI ו-Google הגיעו עם הצהרות רשמיות ביחס להאשמות אלו?
Engadget פנתה לכל אחת מ-Google ו- OpenAI לקבלת הערות שלהם על הנושא. כיום, לא קיימות הודעות רשמיות מהחברות הללו על ההאשמות שהוגשו בדו"ח של The New York Times.

מוסף למידע המצוין במאמר, כאן כמה פרטים נוספים על התעשייה, תחזיות שוק ובעיות הקשורות לתעשיית ה-AI ולאימון המודלים באמצעות טקסטים של יוטיוב:

תעשיית ה- AI חוויתה צמיחה משמעותית בשנים האחרונות, תוך כדי גודל השוק צפוי להגיע ל- 190.61 מיליארד דולר עד 2025, לפי דו"ח של MarketsandMarkets. הצמיחה הזו מופעלת על ידי הבקשה המתמדת לפתרונות מונחים AI במגוון תחומים כמו בריאות, פיננסים, קמעונאות ותעשייה.

אחת האתגרים המרכזיים בתעשיית ה-AI הוא הצורך בנתונים במידות גדולים ובאיכות גבוהה לאמן את מודלי האינטיליגנציה המלאכתית בצורה אפקטיבית. חברות כמו OpenAI ו- Google מחפשות באופן קבוע מקורות נתונים שונים, כולל תוכן באמצעות יוטיוב לשיפור פרופיל המוצרים ה- AI שלהם.

עם זאת, שימוש בסרטי יוטיוב לאימון מודלי AI עלול לגרום לפחדים מהיסט זכויות יוצרים. ליוצרים יש זכויות בלעדיות לתוכן שלהם, כולל זכות לשכפל ולהפצה. שאיבת לא מורשה או הורדת סרטוני יוטיוב בלעדי אישור היוצרים עשויים להפר זכויות אלו.

הנושא של הפרת זכויות יוצרים בתעשיית ה-AI אינו חדש. בעבר נתקלו במקרים שבהם חברות נתבעו על רקע שימוש בחומרי זכויות יוצרים בקבוצות אימון שלהן. לדוגמה, ב- 2019 צוין תביעה כנגד חברת AI גדולה על שימוש בתמונות זכות יוצרים שלא ניתן בהם.

כדי לטפל בדאגות הזכויות יוצרים אלו, חברות כמו גוגל הטילו בפרק העוני מדיניות לוודא שהן משתמשות רק בסרטונים שהסכימו לפתוח להשתתף בתכנית הניסיונית שלהן. נעשה כך על מנת לעמוד בחוקי הזכויות ולכבד את הזכויות של יוצרים.

עם זאת, השימוש בסרטי יוטיוב לאימון מודלי AI אינו הפרק הא

The source of the article is from the blog rugbynews.at