Mini-Gemini: Развитие на Визионни Езикови Модели Чрез Обработка на Мултимодални Входов

В областта на изкуствен интелект, Визионните Езикови Модели (VLMs) изникват като революционно сливане на Компютърно Зрение (CV) и Обработка на Естествен Език (NLP). Комбинацията на тези две дисциплини има за цел да репликира разбирането, като интегрира съдържание, което безупречно съчетава изображения и думи. Този фюжън представлява комплексно предизвикателство, което е изразително заинтересувало изследователите по целия свят.

Скорошните разработки в областта въведоха модели като LLaVA и BLIP-2, които използват обширни колекции от двойки изображения-текст за довършено подготвяне на крос-модалното усъвършенстване. Тези напредъци се фокусират върху подобряването на резолюцията на изображенията, подобряването на качеството на токените и справянето със затрудненията в изчислителния процес, свързани с обработката на изображения с висока резолюция. Въпреки това те се сблъскват с проблеми, свързани с латентността и нуждата от обширни ресурси за обучение.

Иновациите, представени от изследователи от Китайския университет, Хонконг и SmartMore, доведоха до създаването на нова рамка, наречена Mini-Gemini, която препъва границите на VLMs чрез подобряване на обработката на мултимодални входове. Това, което отличава Mini-Gemini от съществуващите модели, е нейната имплементация на двойна система за кодиране и уникална техника за извличане на информация за пачки, комбинирани със специално подбран набор от висококачествени данни. Тези напредъци осигуряват на Mini-Gemini ефективната обработка на изображения с висока резолюция и генерирането на богато на контекст визуално и текстово съдържание.

Методологията зад Mini-Gemini включва двойна система за кодиране, комбинираща конволюционна невронна мрежа за довършено обработване на изображения и техника за извличане на информация за пачки за детайлно извличане на визуални индици. Системата е обучена върху композитен набор от данни, който включва висококачествени двойки изображения-текст и задачно ориентирани инструкции, което да подобри изпълнението на модела и да разшири обхвата на неговото приложение. Mini-Gemini е съвместима с различни Големи Езикови Модели (LLMs), покриващи параметри от 2B до 34B, което позволява ефективно сравнение между 任何-към-обикновени изводи. Тази настройка позволява на Mini-Gemini да постигне супериорни резултати в zero-shot изпитвания и да подпомага напреднали мултимодални задачи.

При оценяването на ефективността на Mini-Gemini, системата показа изключителното си представяне в няколко zero-shot изпитвания. Важно е да се отбележи, че надмина Gemini Pro модела в MM-Vet и MMBench изпитванията, постигайки съответно оценки от 79,6 и 75,6. Когато е конфигурирана с Hermes-2-Yi-34B, Mini-Gemini постигна впечатляващ резултат от 70,1 в VQAT изпитването, надхвърляйки съществуващия модел LLaVA-1.5 по всички оценени метрики. Тези резултати потвърждават напреднатите мултимодални възможности на Mini-Gemini и подчертават неговата ефективност и прецизност в справянето със сложни визуални и текстови задачи.

Въпреки че Mini-Gemini представлява значителна стъпка напред във възможностите на мултимодалния изкуствен интелект, изследователите признават, че все още има място за подобрение на неговите визуални способности за разбиране и мислене. Те твърдят, че бъдещите проучвания ще изследват нови методи за визуално разбиране, мислене и генериране.

В заключение, Mini-Gemini въвежда нова ера в VLMs чрез своята двойна система за кодиране, техника за извличане на информация за пачки и висококачествен набор от данни. С изключителното си представяне в множество изпитвания, Mini-Gemini надхвърля установените модели, пролагайки пътя за напредък в мултимодалния изкуствен интелигентан. Докато изследователите продължават работата си, те се стремят да подобрят визуалното разбиране и мислене на Mini-Gemini, като преминават границите на технологията за изкуствен интелект.

Източник: Marktechpost

Често задавани въпроси (ЧЗВ)The source of the article is from the blog lisboatv.pt

Често задавани въпроси (ЧЗВ)
The source of the article is from the blog lisboatv.pt