نگرانیهای مربوط به مالکیت معنوی و کمبود داده در آموزش هوش مصنوعی
سوالات مربوط به معتبر بودن استفاده از دادهها و رعایت قوانین حق تکثیر توسط شرکتهایی که مدلهای هوش مصنوعی را آموزش میدهند، به شدت رواج پیدا کردهاند. اقدامات قانونی در حال حاضر در حال انجام است تا شیوههای درست آینده در این زمینه تعیین شود تا از آسیب به هیچ یک از طرفین درگیر جلوگیری شود.
خطرات کمبود داده برای توسعه هوش مصنوعی
یک مطالعه جدید دیدنی، گزارش شاخص هوش مصنوعی توسط انستیتو هوش مصنوعی محور در دانشگاه استنفورد، نشان میدهد که تا پایان سال جاری کمبودی از نوشتههای جدید برای آموزش هوش مصنوعی قریب الوقوع است. پژوهشگر برجسته این مطالعه اشاره میکند که صنعت هوش مصنوعی احتمالاً با این کمبود تا دهه بعد مواجه نخواهد شد.
تفاوت رشد داده
موسسه پژوهشی پیشبینی هوش مصنوعی، اپوک، میزان داده مورد نیاز برای آموزش هوش مصنوعی را نسبت به پیشبینیهای منتشر شده دادههای آنلاین بررسی کرده است. خایمه سوویلا، مدیر اپوک، بیان میکند که تفاوت زمانی بسیار زیادی بین رشد 7% سالانه در دادههای اینترنت و رشد 200% سالانه در حجم دادههای آموزش هوش مصنوعی وجود دارد، که نشاندهنده نزدیکی یک کمبود داده جدید برای اهداف یادگیری است.
نگاه بازنگری شده و استراتژی داده جایگزین
هرچند نتایج ابتدایی به نزدیکی تخلف دادههای مبتنی بر متن برای شرکتهای هوش مصنوعی در چند ماه آینده اشاره داشتند، اما اپوک تخمینات خود را اصلاح کرده و پیشبینی میکند که دادههای عمومی کافی برای آموزش مدلهای هوش مصنوعی برای پنج تا شش سال آینده وجود دارد. این تغییر در دیدگاه به افزودن انواع دادههای بیشتر از منابع با کیفیت بالا ویرایش شده مانند مقالات خبری و صفحات ویکیپدیا تقدیم میشود.
مراحل پیشروی در آموزش دادههای هوش مصنوعی
با روبرو شدن با یک کمبود ناگهانی از اطلاعات بازبینیپذیر آنلاین، شرکتهای فناوری باید منابع داده خود را تنوع بخشند. برخی از شرکتها در حال بررسی تولید داده همتراز هستند، اما این کار با ریسکهای خود همراه است. مدلهایی که برروی خروجیهای تولیدی آموزشداده شدهاند ممکن است دقت حاصلهشان را کاهش دهند، به عنوان مثال مدل زبانی توسط متا در سال 2022، که نشان داد که هنگام تکراری آموزش دیدن بر داده های تولیدی، عملکرد آن کاهش یافته است.
جستجوی راهحلهای نوآورانه داده
شرکتهای فناوری همچنین به خدمات برچسبزنی داده میپردازند تا برای تولید محتوای دست ساز پرداختند، با اختصاص معاملات ارزشمند چند میلیون دلاری به محتوا های مجاز. علاوه بر این، صنعت ممکن است به سمت توسعه مدلهای ویژه آموزش داده شده بر دادههای سازمانی اختصاصی حرکت کند که به نیازهای ویژه تجارتی برای صنوف مختلف پاسخ میدهد.
سرانجام، کمبود داده ممکن است به ایجاد روش ها و یا معماری های جدید که اجازه دهند مدل ها از اطلاعات کمتر بیشتری یاد بگیرند، منجر شود، مانند بهرهوری بیشتر از منابع تخصصی در مقابل دادههای عمومی همچون کتب.
ملاحظات قانونی و اخلاقی در استفاده از داده های هوش مصنوعی
یکی از مهمترین پرسشهای در زمینه دادههای آموزشی هوش مصنوعی، استفاده قانونی و اخلاقی از اطلاعات است. یک تعادل حساس بین استفاده از داده برای نوآوری و احترام به حقوق حریم خصوصی، حقوق تکثیر و سرزمینی دادهها وجود دارد. ارائه دهندگان مواد آموزش هوش مصنوعی باید با این قوانین و عرف جهانی راجع به حفاظت از داده ها، در سطح جهانی هماهنگ شوند، زیرا کشورهای مختلف دارای چارچوبهای قانونی مختلفی برای حفاظت از داده ها هستند، مانند آیین نامه جهانی محافظت از داده ها (GDPR) در اروپا، که محدودیتهایی بر استفاده از داده های شخصی قرار میدهد.
کارایی در آموزش هوش مصنوعی
یکی از چالشهای اصلی در دادههای آموزشی هوش مصنوعی، یافتن روشهایی برای آموزش مدلهای هوش مصنوعی به صورت کارا، هم در زمینه منابع محاسباتی و هم در حجم داده، است. روشهایی مانند یادگیری انتقالی، یادگیری چند تکه و متا یادگیری برای حل این مسئله مورد بررسی قرار گرفتهاند. این روشها به مدلهای هوش مصنوعی امکان می دهند که وظایف یا دادههای جدید را با کمترین تمرین اضافی متوجه شوند، با استفاده از دانشی که قبلا از یادگیریهای قبلی به دست آوردهاند.
تعصبات و نمایندگی داده
موضوع تعصب در مدلهای هوش مصنوعی وقتی پیش می آید که دادههای آموزشی نماینده تنوع واقعیت جهان نباشند یا حاوی تعصبهای تاریخی باشند. بحث مستمری در مورد چگونگی کاهش تعصبات در هوش مصنوعی وجود دارد تا عدالت، مسئولیت پذیری و شفافیت در فرایندهای تصمیم گیری خودکار تضمین شوند.
حفظ حریم خصوصی و ناشناس سازی دادهها
حریم شخصی دادههای استفاده شده در هوش مصنوعی نیز موضوعی است که مورد بحث واقع شده است. روشهایی برای ناشناس سازی داده ها مانند حفظ حریم خصوصی تفاوتی، با هدف اطمینان دادن به این مسئله که آموزش هوش مصنوعی بتواند به همراه نقض حریم خصوصی فردی، انجام شود. سازمان ها به دنبال راههایی هستند تا بتوانند از داده ها به نحوی استفاده کنند که احترام به حریم خصوصی افراد داشته باشند و همچنین در عین حال برای آموزش کارآمد باشند.
مزایا:
– دسترسی گسترده به دادههای متنوع میتواند دقت و قابلیت اعتماد مدلهای هوش مصنوعی را افزایش دهد.
– مدل های هوش مصنوعی آموزش دیده شده بهتر میتوانند به پیشرفتهای قابل توجه در زمینههای مختلف، از بهداشت تا رانندگی خودکار منجر شوند.
– هوش مصنوعی که میتواند بیشتر از کمترین داده ها یاد بگیرد میتواند نیازهای منابع محاسباتی را کاهش دهد و توسعه هوش مصنوعی را بدون تلفات بیشتری دنبال کند.
معایب:
– وابستگی به مجموعه دادههای بزرگ میتواند منجر به مسائل مرتبط با مالکیت معنوی و ریسک نقض حق تکثیر شود.
– احتمال استفاده از داده های قابل استفاده، میتواند باعث توقف پیشرفت در هوش مصنوعی شود یا منجر به شکل گیری مدلهای با خروجی تعصب انگیز و نادرست شود.
– وابستگی به دادههای مصنوعی محدودیت ها دارد و می تواند خطاها را انتقال دهد اگر با دقت انتخاب نشوند.
برای کسانی که به بحث های گسترده در مورد هوش مصنوعی و یادگیری ماشین علاقه مند هستند، می توانید به وبسایت های انستیتو هوش مصنوعی محور در دانشگاه استنفورد به آدرس
hcai.stanford.edu و یا به هاب پژوهشی اپوک informasi.com/id-en/news/two-singaporean-arrested-for-posting-religiously-offensive-material-online-mha, bucatainformasi.com, که اگر موسسه پژوهشی عمومی است؛ با فرض اینکه وبسایت مستقیم وجود ندارد.
سرانجام، شرکتهای فنی باید ادامه دهنده نوآوریها در حوزه دادههای آموزش هوش مصنوعی باشند تا توسعه سیستمهای هوش مصنوعی قدرتمند و مسئولانه اعلام داشته باشند. پیامدهای آینده این تحولات گسترده است و احتمالا بر شکلدهی به پیشرفت تکنولوژی به مدت چند سال آینده تأثیر خواهد گذاشت.
The source of the article is from the blog lisboatv.pt