تحدّيات البيانات للذكاء الصناعي: سباق شركات التكنولوجيا للوصول إلى البيانات

في سباق للريادة في مجال الذكاء الصناعي (AI)، تواجه شركات التكنولوجيا تحدياً حاسماً: الحاجة إلى كميات هائلة من البيانات لتدريب نماذجها الذكية. تواجه هذه الشركات مثل OpenAI، Google، و Meta تحديات جوهرية في مسعاها لتلبية هذا الطلب، حيث اضطرت لاتخاذ إجراءات مشكوك فيها، متجاوزة سياسات الشركات وحتى حدود القوانين.

في نهاية عام 2021، واجهت شركة OpenAI مشكلة في الإمدادات. لتدريب أحدث نظام AI لديها، احتاجوا إلى المزيد من البيانات ولكن كانوا قد استنفدوا بالفعل من مصادر النصوص الإنجليزية الموثوقة على الإنترنت. ردًا على ذلك، قام الباحثون في OpenAI بتطوير أداة تعرف الصوت، Whisper، التي قامت بتحويل الصوت من مقاطع الفيديو على YouTube إلى نص. تم تغذية النصوص الناتجة إلى النموذج الذكي الخاص بهم، GPT-4، لتعزيز قدراته.

كان استخدام مقاطع الفيديو على YouTube لتحويل النصوص مثار قلق بسبب احتمال انتهاك قواعد YouTube. ومع ذلك، قامت OpenAI بالمضي قدمًا وتحويلت أكثر من مليون ساعة من مقاطع الفيديو، باستخدام النصوص لتحسين نظام الذكاء الاصطناعي الخاص بهم. شارك Greg Brockman، رئيس OpenAI، شخصيًا في جمع هذه المقاطع.

بالمثل، استكشفت Meta، الشركة الأم لـ Facebook و Instagram، طرقًا مختلفة للحصول على البيانات اللازمة. كشفت الاجتماعات الداخلية عن مناقشات حول شراء Simon & Schuster، دار نشر، للحصول على الأعمال الطويلة. كما نظروا إلى استخراج البيانات المحمية بحقوق النشر من جميع أنحاء الإنترنت، حتى لو تعني ذلك مواجهة عواقب قانونية. واعتبر تفاوض التراخيص مع الناشرين ومنشئي المحتوى أمرًا مستهلك الوقت وغير العملي.

اضطرت Google، لاعب كبير آخر في مجال AI، إلى تحويل مقاطع الفيديو على YouTube لجمع البيانات، مما قد ينتهك حقوق ملكية الطبع والنشر لصناع المحتوى. كما قامت الشركة بتوسيع شروط الخدمة الخاصة بها للوصول إلى Google Docs المتاحة للجمهور، وآراء المطاعم على Google Maps، ومواد أخرى على الإنترنت، بهدف استخدامها في منتجات AI.

تبرز أفعال هذه الشركات التقنية تزايد الاعتماد على المعلومات عبر الإنترنت لتعزيز تقدم AI. أصبحت النصوص، الصور، الأصوات ومقاطع الفيديو التي أنشأها البشر موارد لا تقدر بثمن لتدريب أنظمة AI. ومع تزايد قوة النماذج AI، يستمر الطلب على كميات البيانات التي تحتاج إليها.

تواجه الشركات التقنية تحديًا ملحًا في الوصول إلى بيانات عالية الجودة. بينما كان الإنترنت مصدرًا وفيرًا للمعلومات في وقت ما، إلا أن تطورات AI تستوجب مستودعات بيانات أكثر تنوعًا وشمولًا. ومع ذلك، تعيق التنظيمات مثل قوانين الخصوصية الشركات مثل Google و Meta من الاستفادة من محتوى المستخدمين لأغراض AI.

تتوقع الخبراء أن يستنفذ العمالقة التقنيون البيانات عالية الجودة المتاحة على الإنترنت في وقت مبكر يصل إلى عام 2026. ونتيجة لذلك، تجد الشركات أنفسها تستكشف أساليب بديلة لجمع البيانات، بما في ذلك إنشاء معلومات اصطناعية. وهذا يتضمن نماذج AI توليد النصوص، الصور، والشفرة لتعلم من نتائجها الخاصة.

لقد ركزت OpenAI، Google، و Meta على مخاوف اقتناء البيانات، مبرزة جهودها في تنسيق ودمج البيانات في نماذجها AI. تقول OpenAI إن كل نموذج AI لديها يمتلك مجموعة بيانات فريدة، قامت بتنسيقها لتعزيز فهمها للعالم. وتعترف Google ب استخدام محتوى YouTube، ولكن داخل اتفاقيات مع المنشئين، بينما تؤكد Meta على مجموعتها الضخمة من الصور ومقاطع الفيديو المشتركة علناً من Instagram و Facebook.

تحدث استخدام الأعمال الإبداعية من قبل شركات الذكاء الصناعي عن خلافات قانونية حول حقوق الطبع والنشر. وقد قدمت العديد من الجمعيات التجارية والكتاب والشركات تعليقات إلى مكتب حقوق الطبع والنشر بشأن استخدام أعمالهم لنماذج AI. وهو الآن يعد دليلا على كيفية تطبيق قانون حماية حقوق الطبع والنشر في عصر AI.

تعتبر مشكلة البيانات للذكاء الصناعي قضية معقدة تتضمن إيجاد توازن بين الابتكار واحترام حقوق المبتكرين. مع سعي شركات التكنولوجيا نحو تطوير أنظمة AI متقدمة، سيستمر سعيها وراء البيانات في التطور، مما يؤدي إلى حوارات مستمرة حول الحدود الأخلاقية والقانونية.

الأسئلة الشائعة

The source of the article is from the blog portaldoriograndense.com

Privacy policy
Contact