گریز برای داده: چگونگی استفاده از منابع بزرگ برای آموزش مدل های هوش مصنوعی

شرکت های فناوری به طور پیوسته سعی در پیشرفت مدل های هوش مصنوعی خود دارند و داده نقش حیاتی در این تلاش دارد. در یک گزارش اخیر، OpenAI از بیش از یک میلیون ساعت ویدیوی YouTube برای آموزش مدل زبان پیشرفته خود، GPT-4، استفاده کرد.

آموزش مدل های هوش مصنوعی قوی از مقدار زیادی از داده نیاز دارد و OpenAI برای این منظور به کتابخانه ویدیوی حجیم YouTube مراجعه کرد. با استفاده از ابزار تشخیص سخن به نام Whisper، مدل GPT-4 محتوای ویدیویی را تایپ می کند و مجموعه داده گسترده ای را برای آموزش فراهم می کند.

اما، این روش نگرانی ها درباره رعایت سیاست های YouTube را ایجاد کرد. گوگل، صاحب YouTube، استفاده از ویدیوهای خود را برای برنامه های مستقل بطور سختگیرانه محدود می کند. فرایند تایپ محتوای ویدیوی موجب ایجاد تکه پازل در مورد نقض قانون حق تکثیر شد.

هنگام سوال درباره استفاده OpenAI از داده های YouTube، مدیر عامل YouTube Neal Mohan عدم قطعیت خود را اعلام کرد و گفت که از هیچ چنین استفاده ای آگاه نبوده است. با این حال، او تأکید کرد که استفاده از ویدیوهای YouTube بدون مجوز صحیح ممکن است مشکلات قابل توجهی ایجاد کند.

در اینجا باید ذکر شود که OpenAI تنها شرکتی نیست که به دنبال روش های تهیه بیشتری از داده ها برای آموزش هوش مصنوعی است. خود گوگل نیز با تایپ محتوای YouTube تحت توافقات با خالقین استفاده کرده است. Meta Mark Zuckerberg نیز با بحث درباره امکان تهیه کتاب های Simon & Schuster برای دسترسی به یک کتابخانه بزرگ از کتاب ها، مورد توجه قرار گرفت.

چرا جنون به داده؟

کارایی و قابلیت های مدل های هوش مصنوعی به طور مستقیم با حجم و کیفیت داده هایی که بر آنها آموزش دیده اند، ارتباط دارد. در واقع، تقاضای داده های با کیفیت بالا به گونه ای بزرگ است که متخصصان از جوش خوردن ممکن است تا سال 2026 حدوداً به نفوذ داده های اینترنتی آماده برسند که این نشان دهنده رقابت برای جمع آوری حجم عظیمی از اطلاعات است.

پرسشات متداول:

1. GPT-4 چیست؟
GPT-4 مخفف “Generative Pre-trained Transformer 4” است و یک مدل زبان است که توسط OpenAI توسعه یافته است. از تکنیک های یادگیری عمیق استفاده می کند تا متنی شبیه به انسان بر اساس متن ارائه شده تولید کند.

2. تشخیص سخن چیست؟
تشخیص سخن تکنولوژی است که زبان گفتاری را به متن نوشته تبدیل می کند. در مورد GPT-4 اوپن آی AI، ابزار تشخیص سخن Whisper محتوای ویدیویی را تایپ کرد.

3. چگونه داده بر مدل های هوش مصنوعی اثر می گذارد؟
داده برای آموزش مدل های هوش مصنوعی حیاتی است. حجم و کیفیت داده به طور مستقیم بر عملکرد، دقت و قابلیت های یک مدل هوش مصنوعی تأثیر می گذارد. بیشتر داده ها امکان پیش بینی های بهتر و درک عمیق از الگوهای پیچیده را فراهم می کنند.

4. آیا نگرانی های حق تکثیر در تایپ محتوای ویدیویی YouTube وجود دارد؟
بله، تایپ محتواهای YouTube بدون مجوز صحیح ممکن است به طور پتانسیلی با قوانین حق تکثیر در تضاد باشد. یوتیوب استفاده از ویدیوهای خود را برای برنامه های مستقل محدود می کند و تایپ غیرمجاز ممکن است به حقوق خالقان تجاوز کند.

5. چگونه شرکت های هوش مصنوعی به داده دست می یابند؟
شرکت های هوش مصنوعی از منابع مختلفی برای دستیابی به داده استفاده می کنند. این منابع ممکن است شامل مجموعه داده های عمومی، همکاری با ارائه دهندگان داده یا توافقات با خلق محتوا برای دسترسی به محتوای آنان برای اهداف آموزشی باشد.

در حالی که رقابت برای داده ها ادامه دارد، شرکت های مانند OpenAI و گوگل به دنبال روش های نوآورانه برای آموزش مدل های هوش مصنوعی خود ادامه می دهند. در حالی که نگرانی ها درباره رعایت و حق تکثیر باقی می مانند، تشنگی برای پیشرفت هوش مصنوعی مبتنی بر داده ها همچنان ادامه دارد.

منبع:

Hindustan Times

The source of the article is from the blog zaman.co.at