تحقيق هام من قبل أخبار التكنولوجيا كشف عن كشف مثير للجدل في مجال تطوير الذكاء الاصطناعي. العمالقة في الصناعة قاموا بتوظيف نماذجهم الذكاء الاصطناعي التي تم تدريبها على مجموعة بيانات مختارة تتألف من أكثر من 173,000 مقطع فيديو على YouTube دون موافقة.
المجموعة البيانية، الرائدة من قبل الكيان غير الهادف للربح EleutherAI، تضم مقتطفات من مقاطع الفيديو على YouTube المستمدة من أكثر من 48,000 قناة، حيث استفادت شركات مثل Apple وNVIDIA وAnthropic منها. يسلط ذلك الضوء على واقع محرج يتعلق بتقنية الذكاء الاصطناعي التي تعتمد بشكل كبير على البيانات المستخرجة من مبدعي المحتوى دون موافقتهم أو تعويضهم.
على خلاف المحتوى الأصلي، لا تحتوي المجموعة البيانية على أي مقاطع فيديو فعلية ولكن بيانات نصية من خلال خراجات أهم مبدعين على المنصة مثل Marques Brownlee وMrBeast، جنبًا إلى جنب مع الناشرين الرئيسيين مثل The New York Times وBBC وABC News. تساهم أيضًا تسجيلات من مقاطع فيديو Engadget في هذه المجموعة البيانية، مما يخوض في لغز أخلاقي مثير للجدل ضمن منظر الذكاء الاصطناعي.
ووفقًا للتقارير، اكتسبت Apple بيانات ذكاء اصطناعي من مصادر متنوعة، بما في ذلك خدش البيانات من مقاطع الفيديو على YouTube، وهو ممارسة تثير مخاوف أخلاقية. وفي ظل هذا الكشف، بقيت الشركات مثل Apple وNVIDIA صامتة تجاه طلبات التعليق، لافتة إلى نقص التوضيح فيما يتعلق بالبيانات المستفادة لتدريب نماذج الذكاء الاصطناعي.
يقف موقع YouTube، كمستودع ضخم للمحتوى الفيديوي عالميًا، ككنز ثمين لتدريب النماذج الاصطناعية، غير مقتصر على البيانات النصية ولكن يمتد إلى الصوت والفيديو والصور. تستمر المناقشات الأخلاقية المتعلقة باستخدام بيانات YouTube في تدريب نماذج الذكاء الاصطناعي في الارتفاع، مؤكدة على أهمية الشفافية والموافقة في هذا المنظر التكنولوجي المتطور.