هوش مصنوعي به لطف توسعه مدلهای زبان بزرگ (LLMs) و تکنیکهایی مانند یادگیری تقویتی از بازخورد انسانی (RLHF)، در سالهای اخیر پیشرفتهای قابل توجهی کرده است. با این حال، بهینهسازی فرآیند یادگیری مدلهای زبان بزرگ از طریق بازخورد انسانی هنوز یک چالش است.
سابقه سازمانی آموزش LLMs معمولاً شامل اکتشاف غیرفعال بود، به طوری که مدلها پاسخها را بر اساس پیشنهادات تعریف شده تولید میکردند، بدون این که به صورت فعال بکار گیری بازخورد بهبود را جستجو کنند. این رویکرد نیاز به تعداد زیادی تعامل داشت و برای بهبود سریع مدل غیرکارآمد بود. روشهای مختلفی مانند اکتشاف بولتزمان و اینفومکس استفاده شد، اما اغلب نیاز به تعداد زیادی تعامل انسانی برای بهبود قابل توجه داشتند.
محققانی از دیدمایند گوگل و دانشگاه استنفورد هم اکنون رویکرد جدیدی به اکتشاف فعال پیشنهاد کردهاند که شامل نمونهبرداری دوگانه تامپسون (TS) و شبکههای علمی درکی (ENN) برای تولید پرس و جو است. این روش اکتشاف فعال امکان میدهد مدل به صورت فعال بازخورد مفید را جستجو کند و تعداد پرس و جوهای مورد نیاز برای دستیابی به سطح عملکرد بالا را به طور قابل ملاحظهای کاهش دهد.
در آزمایشهای خود، عوامل پاسخها را به 32 پیشنمونه تولید کردند که توسط یک شبیهساز نظریه انتخاب ارزیابی شدند. بازخورد از این ارزیابیها برای بازآرایی مدلهای پاداش در پایان هر دوره استفاده شد. با انتخاب مفیدترین جفتها از یک استخر کاندیدهای موجود با استفاده از ENN، مدل فضاي پاسخ را بطور مؤثری اکتشاف کرد.
نتایج نشان داد که دوبل تامپسون نمونهبرداری (TS) نسبت به سایر روشهای اکتشاف مانند بولتزمان و اینفومکس عملکرد بهتری داشت، به خصوص در هنگام استفاده از تخمین عدم قطعیت از مدل پاداش ENN. این رویکرد فرآیند یادگیری را تسریع کرده و نشان داد که امکان اکتشاف بهینه جهت کاهش میزان بازخورد انسانی مورد نیاز وجود دارد.
این پژوهش امکانات جدیدی برای بهبود سریع و موثر مدل با بهرهگیری از الگوریتمهای اکتشاف پیشرفته و تخمینات عدم قطعیت ارائه میدهد. این برجسته کننده اهمیت بهینهسازی فرآیند یادگیری برای پیشرفت کلی هوش مصنوعی است. با این پیشرفتها، میتوانیم به روشهای آموزش کارآمدتری برای مدلهای زبان بزرگ و کاربردهای هیجانانگیز هوش مصنوعی در زمینههای مختلف نگاهی بیندازیم.
سوالات متداول:
الف: چالش اصلی در بهینه سازی فرآیند یادگیری مدلهای زبان بزرگ (LLMs) از طریق بازخورد انسانی چیست؟
ج: چالش اصلی یافتن یک راه برای بهبود کارآمد LLMs بر اساس بازخورد است، زیرا روشهای سنتی غیرکارآمد بوده و نیاز به تعداد زیادی تعامل انسانی داشته است.
ب: اکتشاف فعال به چه معناست؟
ج: اکتشاف فعال روشی است که در آن LLM به صورت فعال به دنبال بازخورد اطلاعاتی برای بهبود عملکرد خود میگردد، به جای تکیه بر اکتشاف غیرفعال در آن که بر مبنای پیشنمونههای تعریف شده پاسخها را تولید میکند.
ح: دوگانه تامپسون نمونهبرداری (TS) و شبکههای علمی درکی (ENN) چیست؟
ج: دوکانه تامپسون نمونهبرداری (TS) و شبکههای علمی درکی (ENN) تکنیکهایی هستند که در روش اکتشاف فعال پیشنهاد شده استفاده میشوند. دوگانه تامپسون نمونهبرداری روشی برای توازن اکتشاف و بهرهبرداری است، در حالی که شبکههای علمی درکی برای تولید پرس و جو برای به طور مؤثری کاوش در فضاي پاسخ استفاده میشوند.
د: محققان عملکرد مدلهای LMMs را چگونه ارزیابی کردند؟
ج: عوامل پاسخها را به 32 پیشنمونه تولید کردند، سپس توسط یک شبیهساز نظریه انتخاب ارزیابی شدند. بازخورد از این ارزیابیها در پایان هر دوره برای بهبود مدلهای پاداش استفاده شد.
ه: نتایج آزمایشها چه بود؟
ج: آزمایشات نشان داد که دوگانه تامپسون نمونهبرداری (TS) نسبت به سایر روشهای اکتشاف مانند بولتزمان و اینفومکس بهتر عمل کرد. استفاده از تخمین عدم قطعیت از مدل پاداش ENN، فرآیند یادگیری را تسریع کرد و میزان بازخورد انسانی مورد نیاز را کاهش داد.
تعاریف:
– مدلهای زبان بزرگ (LLMs): مدلهای پیشرفتهای که برای پردازش و تولید متن زبان انسان استفاده میشوند.
– یادگیری تقویتی از بازخورد انسانی (RLHF): تکنیکی که از بازخورد انسانی استفاده میکند تا عملکرد مدلها را توسط یادگیری تقویتی بهبود بخشد.
– اکتشاف بولتزمان: روشی که با اختصاص احتمالات به اقدامات، اکتشاف و بهرهبرداری را توازن میدهد.
– اینفومکس: روشی که در محیط یک عامل، محتوای اطلاعات را بیشینه میکند.
پیشنهاد مرتبط:
– دیپمایند: دیپمایند یک سازمان تحقیقاتی هوش مصنوعی است که به صورت قابل توجهی به توسعه این حوزه کمک کرده است.
– دانشگاه استنفورد: دانشگاه استنفورد به عنوان یک مؤسسه عالی آکادمی و مرجع معتبر در زمینه پژوهش و نوآوری در زمینههای مختلف شناخته شده است.
The source of the article is from the blog krama.net