Mini-Gemini: Usmerjanje jezikovnih modelov vizije s pomočjo večmodalne obdelave vhodnih podatkov

V področju umetne inteligence so modeli vizije jezika (VLM) zrasli kot prebojna integracija računalniške vizije (CV) in obdelave naravnega jezika (NLP). Kombinacija teh dveh disciplin si prizadeva za interpretacijo in ustvarjanje vsebine, ki na tekoč način združuje slike in besede, pri čemer poskuša posnemati človeško podobno razumevanje.

Nedavni razvoji na področju so predstavili modele, kot sta LLaVA in BLIP-2, ki izkoriščajo obsežne zbirke slikovno-besedilnih parov za fino usklajevanje prek modalnosti. Ti napredki so se osredotočili na izboljšanje ločljivosti slik, izboljšanje kakovosti žetonov in naslavljanje računalniških težav, povezanih z obdelavo slik visoke ločljivosti. Kljub temu so se soočili s težavami, povezanimi z zakasnitvijo in potrebo po obširnih izobraževalnih virih.

Inovacije, ki so jih sklenili raziskovalci z Univerze v Hong Kongu in SmartMore, so privedle do novega okvirja imenovanega Mini-Gemini, ki potiska meje VLM z izboljšanjem večmodalne obdelave vhodnih podatkov. Tisto, kar Mini-Gemini ločuje od obstoječih modelov, je njegova implementacija sistema z dvojnim kodirnikom in edinstvena tehnika rudarjenja informacij o obližu, kombinirana s posebej kurirano visoko kakovostnim naborom podatkov. Ta napredka omogočata Mini-Gemini-ju učinkovito obdelavo slik visoke ločljivosti in generiranje kontekstualno bogate vizualne in besedilne vsebine.

Metodologija Mini-Gemini vključuje sistem z dvojnim kodirnikom, ki združuje konvolucijsko nevronsko mrežo za rafinirano obdelavo slik in tehniko rudarjenja informacij o obližu za podrobno izvleček vizualnih namigov. Okvir je usposobljen na sestavljenem naboru podatkov, ki vključuje visokokakovostne slikovno-besedilne pare in naloge za usmerjanje, da se izboljša delovanje modela in razširi obseg njegove uporabe. Mini-Gemini je združljiv z različnimi velikimi jezikovnimi modeli (LLM), ki segajo od 2B do 34B parametrov, kar omogoča učinkovito prenosenje kakršnih koli scenarijev med seboj. Ta postavitev omogoča Mini-Gemini-ju doseganje vrhunskih rezultatov pri preizkusih brez izhodiščnega točke in podporo naprednim večmodalnim nalogam.

Pri ocenjevanju učinkovitosti Mini-Gemini-ja je okvir pokazal izjemne rezultate pri več preizkusih brez izhodiščnega točke. Zlasti je presegel model Gemini Pro pri preizkusih MM-Vet in MMBench, pri čemer je dosegel rezultata 79,6 oziroma 75,6. Ko je bil konfiguriran s Hermes-2-Yi-34B, je Mini-Gemini dosegel impresiven rezultat 70,1 pri preizkusu VQAT, presegajoč obstoječi model LLaVA-1,5 pri vseh ovrednotenih metrikah. Ti rezultati potrjujejo napredne večmodalne obdelovalne sposobnosti Mini-Gemini-ja in poudarjajo njegovo učinkovitost in natančnost pri obvladovanju kompleksnih vizualnih in besedilnih nalog.

Čeprav Mini-Gemini predstavlja pomemben korak naprej v zmožnostih večmodalne AI, raziskovalci priznavajo, da še vedno obstaja prostor za izboljšave pri njegovem vizualnem razumevanju in sposobnostih sklepanja. Poudarjajo, da se bodo v prihodnjem delu lotili naprednih metod za vizualno razumevanje, sklepanje in generiranje.

Zaključno, Mini-Gemini predstavlja novo dobo v VLM preko svojega sistema z dvojnim kodirnikom, tehnike rudarjenja informacij o obližu in visoko kvalitetnih naborov podatkov. Z izjemnimi rezultati pri več preizkusih Mini-Gemini presega uveljavljene modele in odpira pot napredkom v večmodalni AI. Medtem ko raziskovalci nadaljujejo s svojim delom, si prizadevajo izboljšati vizualno razumevanje in sklepanje Mini-Gemini-ja, da bi potisnili meje tehnologije AI.

**Vir:** Marktechpost

Pogosto Zastavljena Vprašanja (FAQ)The source of the article is from the blog japan-pc.jp

Pogosto Zastavljena Vprašanja (FAQ)
The source of the article is from the blog japan-pc.jp