آینده یادگیری هوش مصنوعی: تکنیک‌های داده‌های مصنوعی برگزارگان

پشت پاسخ‌های هوشمندانه‌ای که توسط چت‌بات‌ها ارائه می‌شود، یک پایگاه داده عظیم قرار دارد که اغلب شامل تریلیون‌ها کلمه از مقالات، کتب، و نظرات آنلاین است، که سیستم‌های هوش مصنوعی را برای درک سوالات کاربران تربیت می‌کنند. این باور عمومی در صنعت وجود دارد که جمع آوری اطلاعات تا جای ممکن کلید توسعه محصولات AI نسل بعدی است.

اما، چالش قابل توجهی با این رویکرد وجود دارد: تنها تعدادی از داده‌های با کیفیت بالا در اینترنت قابل دسترس است. برای به دست آوردن این داده‌ها، شرکت‌های AI اغلب میلیون‌ها دلار به ناشران پرداخت می‌کنند تا مجوزهای محتوا را تهیه یا اطلاعات را از وب‌سایت‌ها جمع‌آوری کنند که منجر به خطاهای حق تکثیری می‌شود.

شرکت‌های AI برجسته در حال بررسی یک رویکرد جایگزین و کمی جدل‌بر در جامعه AI هستند: استفاده از داده‌های سنتزی یا به طور کلی داده‌های ‘جعلی’. به عنوان مثال، شرکت‌های فناوری اطلاعاتی متن و رسانه را از طریق سیستم‌های AI خود تولید می‌کنند. این داده‌های مصنوعی سپس برای آموزش نسخه‌های آینده این سیستم‌های AI استفاده می‌شود، که Dario Amodei، مدیر عامل Anthropic، آن را به عنوان یک “ابزار تولید داده بی‌پایان” مختصر کرده است. این روش به شرکت‌های AI این امکان را می‌دهد که از مجموعه‌ای از مسائل حقوقی، اخلاقی، و حریم خصوصی خارج شوند.

داده‌های سنتزی در محاسبات تازه‌نمی‌باشد – برای اهداف مختلف از جمله ناشناس کردن اطلاعات شخصی و شبیه‌سازی شرایط رانندگی برای فناوری وسایل نقلیه خودرونما از دهه‌ها استفاده شده است. با این حال، پیشرفت‌های ایجاد کننده AI به تولید داده‌های سنتزی با کیفیت بالاتر به مقیاسی بزرگ کمک کرده است، که ارتقای اجرای این رویکردها را فوری می‌سازد.

هدف عمده از AI ایجاد کردن اطلاعات جدید است، داده، متن، تصاویر، صدا، و ویدیوها و بیشتر از طریق فرایندهایی مانند یادگیری ماشین و یادگیری عمیق تولید می‌شود. یک مثال برجسته مدلهای GPT شرکت OpenAI است که قادر به تولید متن جدید براساس داده‌های آموزشی قبلی‌اش می‌باشد.