Revolucionarni doprinos novog Mini-Gemini modela u području umjetne inteligencije

U području umjetne inteligencije, Vision Language Models (VLMs) su se pojavili kao prekretnička integracija računalnog vida (CV) i obrade prirodnog jezika (NLP). Kombinacija ova dva područja ima za cilj replicirati ljudsku razinu razumijevanja interpretirajući i generirajući sadržaj koji besprijekorno kombinira slike i riječi. Ova integracija predstavlja složeni izazov koji je zainteresirao istraživače diljem svijeta.

Nedavni razvoji u području su predstavili modele poput LLaVA i BLIP-2 koji koriste široke kolekcije parova slike i teksta kako bi fino podešavali cross-modalno poravnanje. Ti napredci usmjereni su na poboljšanje razlučivosti slika, kvalitete tokena te rješavanje računalnih teškoća povezanih s obradom visokorazlučivih slika. Međutim, naišli su na probleme vezane uz latenciju i potrebu za obimnim resursima za obuku.

Inovacije koje su predstavili istraživači sa Sveučilišta u Hong Kongu i SmartMorea stvorile su novi okvir nazvan Mini-Gemini, koji gura granice VLM-a poboljšavajući obradu multi-modalnih ulaza. Ono što izdvaja Mini-Gemini od postojećih modela je njegova implementacija dualnog enkodera i jedinstvene tehnike rudarenja informacija o segmentima, zajedno s posebno kuriranom visokokvalitetnom skupinom podataka. Te inovacije osnažuju Mini-Gemini da učinkovito obrađuje visokorazlučive slike i generira kontekstno bogat vizualni i tekstualni sadržaj.

Metodologija iza Mini-Geminija uključuje sustav dualnih enkodera, kombinirajući konvolucijsku neuronsku mrežu za usavršenu obradu slika i tehniku rudarenja informacija o segmentima za detaljnu ekstrakciju vizualnih znakova. Okvir se trenira na kompozitnom skupu podataka koji uključuje visokokvalitetne parove slike i teksta te zadano orijentirane upute kako bi se poboljšala performansa modela i proširile njegove primjene. Mini-Gemini je kompatibilan s različitim velikim jezičnim modelima (LLMs), što omogućuje učinkovito prilagodbu-inferenciju. Ova postavka omogućava Mini-Geminiju postizanje izvrsnih rezultata u zero-shot benchmarkovima i podršku za napredne multi-modalne zadatke.

U svojoj procjeni učinkovitosti, Mini-Gemini je pokazao izvanredne rezultate u nekoliko zero-shot benchmarkova. Posebno je nadmašio Gemini Pro model u MM-Vet i MMBench benchmarkovima, postižući ocjene od 79,6 odnosno 75,6. Konfiguriran s modelom Hermes-2-Yi-34B, Mini-Gemini je postigao impresivnu ocjenu od 70,1 u VQAT benchmarku, premašujući postojeći LLaVA-1.5 model u svim evaluiranim metrikama. Ti rezultati potvrđuju napredne multi-modalne sposobnosti obrade Mini-Geminija te ističu njegovu efikasnost i preciznost u rješavanju kompleksnih vizualnih i tekstualnih zadataka.

Iako Mini-Gemini predstavlja značajan korak naprijed u mogućnostima multi-modalne umjetne inteligencije, istraživači priznaju da još uvijek postoji prostor za poboljšanje u njegovoj vizualnoj shvaćanju i sposobnostima rezoniranja. Tvrd također da će se u budućnosti istražiti napredne metode za vizualno razumijevanje, rezoniranje i generaciju.

Mini-Gemini uvodi novu eru u VLM-ove kroz svoj dualni enkoder sistem, tehniku rudarenja informacija o segmentima i visokokvalitetni skup podataka. S iznimnom performansom u više benchmarkova, Mini-Gemini nadmašuje etablirane modele, otvarajući put napretku u multi-modalnoj AI. Dok istraživači nastavljaju svoj rad, nastoje poboljšati vizualno razumijevanje i rezoniranje Mini-Geminija, gurajući granice tehnologije umjetne inteligencije.

Izvor: Marktechpost

Često postavljana pitanja (FAQ)The source of the article is from the blog revistatenerife.com

Često postavljana pitanja (FAQ)
The source of the article is from the blog revistatenerife.com