מיני-זהבית: קידומת של דגמי שפה חזותית דרך עיבוד של קלטים מרובי-מודל

בעולם של המודלים הקריאותיים של הקריאת עין (VLMs), זהבית (VLMs) עלתה כשילוב חדשני של ראיית מחשב (CV) ועיבוד שפה טבעית (NLP). שילוב זה מטרתו לשקף הבנה דומה לאדם על ידי פירוש וייצוג של תוכן שמשלב בין תמונות ומילים. השילוב הזה מציע אתגר מורכב שהפך את חוקרים מכל רחבי העולם.

בתחום מתקדמ בפרק האחרון הובאים הדגמים כגון LLaVA ו-BLIP-2 שמשתמשים באוספים רחבים של צמודי תמונה-טקסט לכיוון צרפתוֹ בין-מודע. ההתקדמויות האלה ממוקדות בשיפור רזולוציית תמונה, שיפור איכות האסימונים וטיפול בקשיים חישוביים המתוארים עם עיבוד של תמונות ברזולוציית תמונה גבוהה. עם זאת, נתקלו בבעיות הנוגעות ללטנציה ולצורך במשאבי הכשרה נרחבים.

אינובציות שהביאו חוקרים מאוניברסיטת הקונג הונג וסמארטמור הביאו לתפוצותיהן למסגרת חדשנית הנקראת מיני-זהבית, שתופקע גבולות מודלי ה-VLMs על ידי העברת מידע מרובי-מודל. הדבר שהופך את מיני-זהבית ממודלים קיימים הוא מימושה של מערכת מקודדת כפולה ותיקון פרוץ מידע על רקע מיוחד של נתונים באיכות גבוהה. האינובציות האלו מעצם את מיני-זהבית לעבוד ביכולת מועילה יחסית תמונות ברזולוציית גבוהה וייצג מידע וטקסט ויזואלי בעניין.

המתודולוגיה שעומדת מאחורי מיני-זהבית היא מערכת מקודדת כפולה, שמשלבת רשת נוירונים קונבולוציונית לעיבוד תמונה ממון ותיקון על מחצבי מידע להיצקת הוראת חושים רזה. השקד נכשל באמונות, אז המסגרת נלמדת על פי נתונים שכוללים זוגות תמונה-טקסט באיכות גבוהה בהוראות ממוקדות למשימות כדי לשפר את ביצועי הדוגמא ולהרחיב את הישגיו סקופ. מיני-זהבית תואמת מודלי שפה גדולים (LLMs), בהם 2B ל-34B פרמטרים, מאפשרת הכרחים כל כיוון-לכיוון יעיל. ההגדרה הזו מאפשרת למיני-זהבית להשיג תוצאות ייצוגיות במבחנים שאין צורך לשונא ולתמוך במשימות מרובי-מודרניות.

במבחן לאפקטיות של מיני-זהבית, הסגפה מתבארת בביצועים יוצאי דופן במבחני כדי-כלום. בפרט, הפכה את המודל גמיני פרו במבחנים כמו המקטבים ו-MMBench, בהצלחה בתחום עבור 79.6 ו-75.6 לפי סדר. כאשר הוגדר עם Hermes-2-ויב-34B, מיני-זהבית השיגה ציון מרשים של 70.1 במבחן VQAT, פורץ דרך את המודל LLaVA-1.5 הקיים בכל המדדים שנבדקו. התוצאות הללו מאמינות כישוריהן של מיני-זהבית בעיבוד רב-מודאי מתקדם ומציינות את ביצועה באפטפיות ובדיוק בטיפול במשימות ויזואליות וטקסטואליות מורכבות.

למרות שמיני-זהבית מייצגת צעד חשוב קדימה ביכולות הבינה של המודלי רבי מודאי, החוקרים מכירים כי עדיין ישנה תחושת עבודה ביכולות ההבנה והשינון החזותי שלה. הם מצהירים כי העבודה העתידית תלמד דרכים מתקדמות להבנת הראיונות החזותיים, השינון, והדור.

בסיכום, מיני-זהבית מכינה תקופה חדשה ב-VLMs דרך מערכת מקודדת כפולה שלה, תיקון פרץ מידע וגישה והדגמת נתונים באיכות גבוהה. עם ביצועיה המצוינים במניו-בחנים מרובים, מיני-זהבית עוברת מעל מודלים שהקימה, פותחת דרך להתקדמות ביישומי AI מרובימודאי. בזמן שהחוקרים ממשיכים בעבודתם, הם שואפים לשפר את ההבנה החזותית והשינון של מיני-זהבית, דוחקים את גבולות טכנולוגיית AI.

מקור: Marktechpost

שאלות נפוצות (שאלות נפוצות)The source of the article is from the blog klikeri.rs

שאלות נפוצות (שאלות נפוצות)
The source of the article is from the blog klikeri.rs