رویکرد تازه‌ای به آموزش مدل‌های زبان بزرگ، امیدوارکننده است زیرا اکتشاف بهینه را تسهیل می‌کند

هوش مصنوعي به لطف توسعه مدل‌های زبان بزرگ (LLMs) و تکنیک‌هایی مانند یادگیری تقویتی از بازخورد انسانی (RLHF)، در سال‌های اخیر پیشرفت‌های قابل توجهی کرده است. با این حال، بهینه‌سازی فرآیند یادگیری مدل‌های زبان بزرگ از طریق بازخورد انسانی هنوز یک چالش است.

سابقه سازمانی آموزش LLMs معمولاً شامل اکتشاف غیرفعال بود، به طوری که مدل‌ها پاسخ‌ها را بر اساس پیشنهادات تعریف شده تولید می‌کردند، بدون این که به صورت فعال بکار گیری بازخورد بهبود را جستجو کنند. این رویکرد نیاز به تعداد زیادی تعامل داشت و برای بهبود سریع مدل غیرکارآمد بود. روش‌های مختلفی مانند اکتشاف بولتزمان و اینفومکس استفاده شد، اما اغلب نیاز به تعداد زیادی تعامل انسانی برای بهبود قابل توجه داشتند.

محققانی از دیدمایند گوگل و دانشگاه استنفورد هم اکنون رویکرد جدیدی به اکتشاف فعال پیشنهاد کرده‌اند که شامل نمونه‌برداری دوگانه تامپسون (TS) و شبکه‌های علمی درکی (ENN) برای تولید پرس و جو است. این روش اکتشاف فعال امکان می‌دهد مدل به صورت فعال بازخورد مفید را جستجو کند و تعداد پرس و جوهای مورد نیاز برای دستیابی به سطح عملکرد بالا را به طور قابل ملاحظه‌ای کاهش دهد.

در آزمایش‌های خود، عوامل پاسخ‌ها را به 32 پیش‌نمونه تولید کردند که توسط یک شبیه‌ساز نظریه انتخاب ارزیابی شدند. بازخورد از این ارزیابی‌ها برای بازآرایی مدل‌های پاداش در پایان هر دوره استفاده شد. با انتخاب مفیدترین جفت‌ها از یک استخر کاندیدهای موجود با استفاده از ENN، مدل فضاي پاسخ را بطور مؤثری اکتشاف کرد.

نتایج نشان داد که دوبل تامپسون نمونه‌برداری (TS) نسبت به سایر روش‌های اکتشاف مانند بولتزمان و اینفومکس عملکرد بهتری داشت، به خصوص در هنگام استفاده از تخمین عدم قطعیت از مدل پاداش ENN. این رویکرد فرآیند یادگیری را تسریع کرده و نشان داد که امکان اکتشاف بهینه جهت کاهش میزان بازخورد انسانی مورد نیاز وجود دارد.

این پژوهش امکانات جدیدی برای بهبود سریع و موثر مدل با بهره‌گیری از الگوریتم‌های اکتشاف پیشرفته و تخمینات عدم قطعیت ارائه می‌دهد. این برجسته کننده اهمیت بهینه‌سازی فرآیند یادگیری برای پیشرفت کلی هوش مصنوعی است. با این پیشرفت‌ها، می‌توانیم به روش‌های آموزش کارآمدتری برای مدل‌های زبان بزرگ و کاربردهای هیجان‌انگیز هوش مصنوعی در زمینه‌های مختلف نگاهی بیندازیم.

سوالات متداول:

الف: چالش اصلی در بهینه سازی فرآیند یادگیری مدل‌های زبان بزرگ (LLMs) از طریق بازخورد انسانی چیست؟
ج: چالش اصلی یافتن یک راه برای بهبود کارآمد LLMs بر اساس بازخورد است، زیرا روش‌های سنتی غیرکارآمد بوده و نیاز به تعداد زیادی تعامل انسانی داشته است.

ب: اکتشاف فعال به چه معناست؟
ج: اکتشاف فعال روشی است که در آن LLM به صورت فعال به دنبال بازخورد اطلاعاتی برای بهبود عملکرد خود می‌گردد، به جای تکیه بر اکتشاف غیرفعال در آن که بر مبنای پیشنمونه‌های تعریف شده پاسخ‌ها را تولید می‌کند.

ح: دوگانه تامپسون نمونه‌برداری (TS) و شبکه‌های علمی درکی (ENN) چیست؟
ج: دوکانه تامپسون نمونه‌برداری (TS) و شبکه‌های علمی درکی (ENN) تکنیک‌هایی هستند که در روش اکتشاف فعال پیشنهاد شده استفاده می‌شوند. دوگانه تامپسون نمونه‌برداری روشی برای توازن اکتشاف و بهره‌برداری است، در حالی که شبکه‌های علمی درکی برای تولید پرس و جو برای به طور مؤثری کاوش در فضاي پاسخ استفاده می‌شوند.

د: محققان عملکرد مدل‌های LMMs را چگونه ارزیابی کردند؟
ج: عوامل پاسخ‌ها را به 32 پیش‌نمونه تولید کردند، سپس توسط یک شبیه‌ساز نظریه انتخاب ارزیابی شدند. بازخورد از این ارزیابی‌ها در پایان هر دوره برای بهبود مدل‌های پاداش استفاده شد.

ه: نتایج آزمایش‌ها چه بود؟
ج: آزمایشات نشان داد که دوگانه تامپسون نمونه‌برداری (TS) نسبت به سایر روش‌های اکتشاف مانند بولتزمان و اینفومکس بهتر عمل کرد. استفاده از تخمین عدم قطعیت از مدل پاداش ENN، فرآیند یادگیری را تسریع کرد و میزان بازخورد انسانی مورد نیاز را کاهش داد.

تعاریف:

– مدل‌های زبان بزرگ (LLMs): مدل‌های پیشرفته‌ای که برای پردازش و تولید متن زبان انسان استفاده می‌شوند.
– یادگیری تقویتی از بازخورد انسانی (RLHF): تکنیکی که از بازخورد انسانی استفاده می‌کند تا عملکرد مدل‌ها را توسط یادگیری تقویتی بهبود بخشد.
– اکتشاف بولتزمان: روشی که با اختصاص احتمالات به اقدامات، اکتشاف و بهره‌برداری را توازن می‌دهد.
– اینفومکس: روشی که در محیط یک عامل، محتوای اطلاعات را بیشینه می‌کند.

پیشنهاد مرتبط:

– دیپ‌‌مایند: دیپ‌مایند یک سازمان تحقیقاتی هوش مصنوعی است که به صورت قابل توجهی به توسعه این حوزه کمک کرده است.
– دانشگاه استنفورد: دانشگاه استنفورد به عنوان یک مؤسسه عالی آکادمی و مرجع معتبر در زمینه پژوهش و نوآوری در زمینه‌های مختلف شناخته شده است.

The source of the article is from the blog krama.net