پشت پاسخهای هوشمندانهای که توسط چتباتها ارائه میشود، یک پایگاه داده عظیم قرار دارد که اغلب شامل تریلیونها کلمه از مقالات، کتب، و نظرات آنلاین است، که سیستمهای هوش مصنوعی را برای درک سوالات کاربران تربیت میکنند. این باور عمومی در صنعت وجود دارد که جمع آوری اطلاعات تا جای ممکن کلید توسعه محصولات AI نسل بعدی است.
اما، چالش قابل توجهی با این رویکرد وجود دارد: تنها تعدادی از دادههای با کیفیت بالا در اینترنت قابل دسترس است. برای به دست آوردن این دادهها، شرکتهای AI اغلب میلیونها دلار به ناشران پرداخت میکنند تا مجوزهای محتوا را تهیه یا اطلاعات را از وبسایتها جمعآوری کنند که منجر به خطاهای حق تکثیری میشود.
شرکتهای AI برجسته در حال بررسی یک رویکرد جایگزین و کمی جدلبر در جامعه AI هستند: استفاده از دادههای سنتزی یا به طور کلی دادههای ‘جعلی’. به عنوان مثال، شرکتهای فناوری اطلاعاتی متن و رسانه را از طریق سیستمهای AI خود تولید میکنند. این دادههای مصنوعی سپس برای آموزش نسخههای آینده این سیستمهای AI استفاده میشود، که Dario Amodei، مدیر عامل Anthropic، آن را به عنوان یک “ابزار تولید داده بیپایان” مختصر کرده است. این روش به شرکتهای AI این امکان را میدهد که از مجموعهای از مسائل حقوقی، اخلاقی، و حریم خصوصی خارج شوند.
دادههای سنتزی در محاسبات تازهنمیباشد – برای اهداف مختلف از جمله ناشناس کردن اطلاعات شخصی و شبیهسازی شرایط رانندگی برای فناوری وسایل نقلیه خودرونما از دههها استفاده شده است. با این حال، پیشرفتهای ایجاد کننده AI به تولید دادههای سنتزی با کیفیت بالاتر به مقیاسی بزرگ کمک کرده است، که ارتقای اجرای این رویکردها را فوری میسازد.
هدف عمده از AI ایجاد کردن اطلاعات جدید است، داده، متن، تصاویر، صدا، و ویدیوها و بیشتر از طریق فرایندهایی مانند یادگیری ماشین و یادگیری عمیق تولید میشود. یک مثال برجسته مدلهای GPT شرکت OpenAI است که قادر به تولید متن جدید براساس دادههای آموزشی قبلیاش میباشد.
The source of the article is from the blog rugbynews.at