Višja zaznavnost multimodalnosti z Griffon v2

Modeli velikih slikovno-jezikovnih jezikov (Large Vision Language Models – LVLMs) so naredili pomembne korake pri nalogah, ki vključujejo razumevanje besedila in slike. Njihova uspešnost v kompleksnih scenarijih pa zaostaja za strokovnjaki za specifične naloge, predvsem zaradi omejitev v ločljivosti slik. Te omejitve omejujejo sposobnost LVLMs, da učinkovito sklicujejo na predmete z uporabo tako besedilnih kot vizualnih smernic, zlasti na področjih kot so agenti za grafični uporabniški vmesnik in dejavnosti štetja.

Za rešitev tega izziva je skupina raziskovalcev predstavila Griffon v2, združljiv visokoresolucijski model, zasnovan za omogočanje prilagodljivega sklicevanja na predmete prek besedilnih in vizualnih smernic. Da bi premagali težavo omejene ločljivosti slike, je skupina predstavila enostaven in lahek projekt, ki zmanjšuje vzorce. Ta projektor je namenjen obvozu omejitev vhodnih žetonov velikih jezikovnih modelov z učinkovitim povečanjem ločljivosti slik.

Izvedba teh pristopov bistveno izboljša multimodalno zaznavnost z ohranjanjem drobnih podrobnosti in celotnih kontekstov, še posebej za manjše predmete, ki jih modeli z nižjo ločljivostjo morda spregledajo. Raziskovalci so na temeljih dodatno razširili z vključitvijo vizualnega analizatorja za igro vlog, Griffon v2 pa je okrepila s sposobnostmi so-sklepanja med vizualnim in jezikovnim načinom. Ta funkcija uporabnikom omogoča interakcijo z modelom z različnimi vnosnimi načini, vključno z koordinatami, prostim besedilom in prilagodljivimi ciljnimi slikami.

Griffon v2 je dokazal svojo učinkovitost pri različnih nalogah, vključno z generacijo izrazov za sklicevanje (REG), določanjem stavkov in razumevanjem izrazov za sklicevanje (REC), na podlagi eksperimentalnih podatkov. Model je presegel strokovne modele pri zaznavanju predmetov in štetju predmetov.

Glavni prispevki raziskovalne ekipe se lahko povzamejo na naslednje načine:

1. Model za visoko resolucijsko multimodalno zaznavnost: S tem ko ne potrebujemo deliti slik, Griffon v2 ponuja edinstven pristop k multimodalni zaznavnosti, ki izboljšuje lokalno razumevanje. Njegova sposobnost obdelave resolucij do 1K izboljšuje njegovo sposobnost zajemanja drobnih podrobnosti.

2. Vizualno-jezikovna struktura so-sklepanja: Za razširitev uporabnosti modela in olajšanje prilagodljive komunikacije z uporabniki je bila uvedena struktura so-sklepanja, ki združuje jezikovne in vizualne vnose. Ta funkcija omogoča bolj prilagodljivo in naravno interakcijo med uporabniki in modelom.

Bili so izvedeni obsežni poskusi za preverjanje učinkovitosti Griffon v2 pri različnih nalogah lokalizacije, vključno z določitvijo stavkov, generacijo izrazov za sklicevanje (REG) in razumevanjem izrazov za sklicevanje (REC). Model je pokazal najboljšo uspešnost, presegajoč strokovne modele tako v kvantitativnem kot kvalitativnem štetju predmetov. S tem dokazuje svojo prisotnost v zaznavanju in razumevanju.

Za več podrobnosti se lahko sklicujete na članek in GitHub repozitorij projekta.

Pogosta vprašanja (FAQ)The source of the article is from the blog lanoticiadigital.com.ar

Pogosta vprašanja (FAQ)
The source of the article is from the blog lanoticiadigital.com.ar