ببغاء: نهج جديد لتوليد النصوص إلى الصور بإطار الربح المتعدد في التعلم التعزيزي

قام باحثون من جوجل ديبمايند، وOpenAI، وجامعة روتجرز، وجامعة كوريا بتطوير نهج ثوري يسمى “ببغاء” لتوليد النصوص إلى الصور (T2I). يهدف هذا النموذج الجديد الذي يعتمد على إطار التعلم التعزيزي المتعدد الربح إلى تحسين جودة الصور المولدة.

يركز إطار العمل ببغاء على تحسين نموذج الـ T2I وشبكة توسيع النص التوجيهية معًا، حيث تلعب الأخيرة دورًا حاسمًا في توليد نصوص ذات جودة عالية. استشعارًا لإمكانية نسيان النص التوجيهي الأصلي خلال عملية الاستدلال، يقدم ببغاء توجيهًا مركزًا على النص التوجيهي للحفاظ على سلامة النص.

لدمج معلومات التفضيل، يستخدم ببغاء معرفات خاصة بكل ربح، حيث تحدد تلك المعرفات تلقائيًا أهمية كل هدف ربحي. من خلال ضبط الشبكة الموسّعة للنصوص التوجيهية باستخدام مجموعة بيانات الـ Promptist، يضمن ببغاء أخذ درجات التطابق والجمالية في الاعتبار أثناء التدريب بواسطة التعلم التعزيزي. يتم تدريب نموذج الـ T2I مسبقًا باستخدام مجموعة بيانات LAION-5B وضبطه عن طريق الخوارزمية الشبكية لسياسات للعملية القرارية الماركوفية لمعالجة عملية التنقية كعملية قرارية ماركوف صفائح البيانات.

أحد الفوائد الرئيسية لـ ببغاء هو قدرته على تحسين عدة مقاييس جودة بما في ذلك الجمالية والمشاعر المرئية وتفضيل البشر، مقارنةً باستخدام نموذج ربح واحد فقط. يضمن التوجيه المركز على النصوص أن الصور المولدة تلتقط النص التوجيهي الأصلي مع إضافة تفاصيل بصرية جذابة.

ومع ذلك، على الرغم من قدرة ببغاء المثيرة للإعجاب، إلا أنه يعتمد لا يزال على المقاييس الموجودة ويفرض قيودًا. من الضروري تحقيق تقدم آخر لتعزيز قابلية ببغاء لمجموعة أوسع من المقاييس، مما يوسع نطاق تطبيقه في تقدير جودة الصور.

من المهم أن نلاحظ أن التبعات الأخلاقية لـ ببغاء يجب أن تُنظر فيها بعناية. إن قدرتها على توليد محتوى غير مناسب يبرز الحاجة إلى فحص دقيق وتقييم أخلاقي أثناء نشرها.

في الختام، يمثل إطار ببغاء في التعلم التعزيزي المتعدد الربح خطوة كبيرة نحو تكنولوجيا توليد النصوص إلى الصور. مع نهج البصمة المشتركة والتوجيه المركز على النصوص، يظهر ببغاء وعودًا في تحسين جودة الصور ويفتح الباب أمام تقدمات أخرى في هذا المجال.

The source of the article is from the blog lokale-komercyjne.pl

Privacy policy
Contact