تقدم الذكاء الاصطناعي بدون انتهاك حقوق النشر

الطرق الجديدة لتدريب نماذج الذكاء الاصطناعي تمكن من التقدم بدون انتهاك حقوق الملكية الفكرية. فقد قامت مجموعة من الباحثين بدعم من الحكومة الفرنسية بإصدار مجموعة بيانات كبيرة لتدريب الذكاء الاصطناعي تتألف بالكامل من نصوص في الملكية العامة. تقدم هذه المجموعة الجديدة أدلة على إمكانية تدريب نماذج لغوية كبيرة دون الحاجة لاستخدام المواد المحمية بحقوق النشر.

منظمة Fairly Trained غير الربحية أعلنت أيضًا أنها حصلت بنجاح على شهادة لأول نموذج لغوي كبير، يحمل اسم KL3M. تم تطوير هذا النموذج من قبل 273 Ventures، وهي شركة استشارات تكنولوجيا قانونية مقرها شيكاغو، باستخدام مجموعة بيانات تدريبية من الوثائق القانونية والمالية والتنظيمية. من خلال الالتزام بقوانين حقوق النشر واستخدام مجموعة بياناتهم الخاصة، أظهرت 273 Ventures أن بناء نماذج لغوية كبيرة يمكن أن يتم بدون مشكلة انتهاك حقوق النشر.

وفقًا لجيليان بوماريتو، الشريك المؤسس لشركة 273 Ventures، كان الدافع وراء قرارهم بتدريب KL3M باستخدام مجموعة البيانات الخاصة بهم هو مخاوف عملائهم المتحفظين في صناعة القانون. كان هؤلاء العملاء قلقين بشأن مصدر البيانات وأرادوا تأكيدات بأن نموذجهم الذكي لم يعتمد على بيانات محمية بحقوق النشر. من خلال استخدام مجموعة بيانات مرتبة بعناية، تشدد بوماريتو على أن حجم النموذج لا يحتاج إلى أن يكون كبيرًا بشكل ساحق، وأن البيانات عالية الجودة يمكن أن تؤدي إلى أداء أفضل وتخصص أكبر.

بينما تكون مجموعات البيانات مثل KL3M محدودة حاليًا من حيث الحجم مقارنة بتلك التي تم جمعها من قبل عمالقة الصناعة مثل OpenAI، هناك أمل في المستقبل. لقد قم الباحثون مؤخرًا بإصدار ال Corpus الشائع، الذي يزعمون أنه أكبر مجموعة بيانات متاحة لنماذج اللغة مكونة فقط من محتوى الملكية العامة. تضم هذه المجموعة البيانات، التي تم نشرها على منصة الذكاء الاصطناعي مفتوحة المصدر Hugging Face، نصوصًا من الصحف في الملكية العامة تم ترقيمها من قبل مؤسسات مثل مكتبة الكونغرس الأمريكية والمكتبة الوطنية الفرنسية. يهدف ال Corpus الشائع إلى توفير مجموعة تدريب مراجعة للباحثين والشركات الناشئة تخلو من مشاكل حقوق النشر.

على الرغم من أن مجموعات البيانات المكونة من محتوى الملكية العامة تحمل عيوبًا مثل احتوائها على معلومات قديمة، إلا أنها توفر موردًا قيمًا لتدريب نماذج اللغة الكبيرة. تبرز مشاريع مثل Corpus الشائع وKL3M شكوكًا متزايدة في مجتمع الذكاء الاصطناعي تجاه الحجة بسحب البيانات دون إذن. في الواقع، قد شهدت Fairly Trained مؤخرًا شهادتها أول شركة تقدم نماذج صوتية للذكاء الاصطناعي، مما يظهر أن هناك اتجاها متزايدا في الصناعة نحو الحصول على تراخيص مناسبة واحترام حقوق الملكية الفكرية.

The source of the article is from the blog smartphonemagazine.nl