غول‌های فناوری به اتهام استفاده غیرمجاز از محتوای یوتیوب برای آموزش هوش مصنوعی اتهام شده‌اند.

شماری از عمالقه‌های فناوری، شامل آپل، متهم به آموزش مدل‌های هوش مصنوعی با استفاده از فیلم‌های یوتیوب بدون رضایت صاحبان محتوا هستند. به جای گرفتن مجوز، این شرکت‌ها زیرنویس‌ها را از بیش از ۱۷۰٬۰۰۰ ویدیو از طریق یک اپلیکیشن واسط استخراج کرده‌اند.

خالقان تحت تاثیر مانند تک‌ویدئوگر برجسته تکنولوژی مارکیز براونلی (MKBHD)، جنریکگرایی، پیودی‌پای، استیون کولبرت، جان اولیور و جیمی کیمل همگی توسط این استفاده غیرمجاز از محتوای خود تحت تاثیر قرار گرفته‌اند. زیرنویس‌های استخراج شده نوشتارهای تبدیلی از محتوای ویدیویی هستند، یک نقض روشن از سیاست‌های یوتیوب.

آشکارسازی تحقیقات و یافته‌ها

یک تحقیق انجام شده توسط خبر‌های اثبات نور انداخته است که چگونه برخی از بزرگترین شرکت‌ها جهانی از مواد هزاران ویدیو یوتیوب برای آموزش مدل‌های هوش مصنوعی‌شان استفاده کرده‌اند و به آیین‌نامه‌های پلتفرم توجهی نکردند. تحقیق نشان داد که زیرنویس‌ها از ۱۷۳٬۵۳۶ ویدیو یوتیوب از بیش از ۴۸٬۰۰۰ کانال، توسط هیولای فناوری‌ای مانند Anthropit، Nvidia، آپل و Salesforce به کار گرفته شده است.

دانلودها توسط EleutherAI، یک سازمان غیرانتفاعی کمکی به توسعه‌دهندگان در آموزش مدل‌های زبان است، انجام شده است. با وجود این که هدف اعلام شده آنها ارائه منابع آموزش برای توسعه‌دهندگان کوچک و اساتید دانشگاهی است، مجموعه داده نیز توسط شرکت‌های فناوری بزرگ راهبردهای آموزش را دریافت کرده است، از جمله آپل.

استفاده از مجموعه داده Pile

همانطور که در یک مقاله تحقیقاتی منتشر شده توسط EleutherAI آمده است، مجموعه داده مورد نظر بخشی از یک تجمیع به نام Pile است. این مجموعه داده‌ها برای هر کسی در اینترنت قابل دسترسی است، به شرط داشتن منابع و توان محاسباتی لازم. به جز از شرکت‌های فناوری بزرگ، اساتید و توسعه‌دهندگان خارج از شرکت‌های فناوری بزرگ نیز از این مجموعه‌ها استفاده کرده‌اند.

شرکت‌های مانند آپل، Nvidia و Salesforce که ارزشیابی‌هایی در صد‌ها میلیارد و تریلیون دلار دارند، در مقالات تحقیق کرده‌اند که چگونه از Pile برای اهداف آموزش مدل‌های هوش مصنوعی بهره بردند. گزارش‌ها نشان می‌دهند که آپل از Pile برای آموزش OpenELM، یک مدل زبان معرفی‌شده در آوریل، کمتر از مدتی بعد از معرفی قابلیت‌های جدید هوش مصنوعی برای آیفون و مک‌بوک خود استفاده کرد.

پیامدهای دیگر استفاده غیرمجاز از محتوای هوش مصنوعی برای آموزش

هرچند تحقیق اولیه بر استخراج گسترده غیرمجاز محتوای یوتیوب برای آموزش مدل‌های هوش مصنوعی تأکید کرد، اما تبعات اضافی ناشی از این روش بررسی متعدد پدیدار می‌شود. استفاده شرکت‌های فناوری از زیرنویس‌های محتوای ویدیویی یوتیوب بدون رضایت صریح از خالقان محتوا، سوالات اساسی متعددی را به چالش می‌کشاند که باید مورد بررسی قرار گیرند.

سوالات کلیدی:

۱. پیامدهای حقوقی: چه تبعات حقوقی برای شرکت‌های فناوری ممکن است از استفاده غیرمجاز از محتوای یوتیوب برای آموزش مدل‌های هوش مصنوعی پیش بیاید؟

پاسخ: شرکت‌ها ممکن است با دادخواهی‌های نقض کپی رایت، خسارات و خسارات اعتباری برای نقض حقوق مالکیت فکری صاحبان محتوا بدون مجوز مناسب مواجه شوند.

۲. ملاحظات اخلاقی: استفاده غیرمجاز از محتوا چگونه بر استانداردهای اخلاقی این عمالقه‌های فناوری تأثیر می‌گذارد؟

پاسخ: نقص در رضایت و شفافیت در استفاده از محتوای شرکت‌های دیگر برای توسعه هوش مصنوعی، مسائلی درباره شیوه‌های اخلاقی، حقوق حریم خصوصی و کارمزد منصفانه برای خالقان به وجود می‌آورد.

۳. نگرانی‌های حریم خصوصی داده: تأثیرات استخراج زیرنویس از ویدیو‌های یوتیوب بر حریم خصوصی و امنیت داده کاربر چیست؟

پاسخ: تخریب غیرمجاز محتوا ویدیو برای آموزش هوش مصنوعی ممکن است باعث نقض حریم خصوصی کاربر شود، زیرا اطلاعات شخصی جاسازی شده در زیرنویس ممکن است سواستفاده یا بد اداره شوند.

چالش‌ها و اختلافات:

جدل اطراف استفاده غیرمجاز از محتوای یوتیوب برای آموزش مدل‌های هوش مصنوعی چندین چالش و اختلافاتی را که نیازمند توجه و حل و فصل هستند به وجود آورده است.

مزایا:

۱. آموزش هزینه‌ای: دسترسی به مجموعه‌های داده عموماً دسترسی پیدا کرده مانند Pile از پلتفرم‌هایی مثل یوتیوب، می‌تواند هزینه‌های مربوط به جمع‌آوری و انوته‌کردن مقادیر زیادی از داده‌های آموزشی را کاهش دهد.

۲. قابلیت‌های هوش مصنوعی بهبود یافته: با بهره‌وری از منابع محتوای متنوع برای آموزش مدل‌های هوش مصنوعی، شرکت‌های فناوری ممکن است دقت و چندگانگی سیستم‌های هوش مصنوعی خود را برای توسعه‌های آینده بهبود بخشند.

معایب:

۱. نقص در شفافیت: استخراج مخفیانه محتوای ویدیو بدون ارجاع یا مجازیت مناسب، شفافیت و مسئولیت‌پذیری در فرایند‌های توسعه هوش مصنوعی را زیر سوال می‌برد.

۲. نقض حقوق مالکیت فکری: استفاده غیرمجاز از مواد محفوظ شده برای آموزش هوش مصنوعی نگرانی‌هایی درباره حقوق مالکیت فکری و کارمزد منصفانه برای خالقان محتوا ایجاد می‌کند.

برای کسب اطلاعات بیشتر درباره اخلاق هوش مصنوعی، حریم خصوصی داده و مقررات فناوری، به آخرین اخبار AoL مراجعه کنید.