Uus Laine Vision-vanedusmudelite valdkonnas

Kunstliku intelligentsi valdkonnas on Vision-vanedusmudelid (VLM-d) emerged põhjalik kooslus Arvutinägemisest (CV) ja Looduslikust keele töötlemisest (NLP). Nende kahe eriala kombinatsioon eesmärgiks on jäljendada inimesesarnast arusaamist, tõlgendades ja genereerides sisu, mis sulandab endas nii pilte kui ka sõnu. Selline ühinemine esitab keeruka väljakutse, mis on köitnud teadlasi üle maailma.

Hiljutised arengud valdkonnas on toonud sisse mudelid nagu LLaVA ja BLIP-2, mis kasutavad ära ulatuslikke kogusid pildi-teksti paare, et viimistleda ristmodaalset joondamist. Need edusammud keskenduvad pildi lahutusvõime parandamisele, tokeni kvaliteedi parandamisele ning tegelemisele arvutuslike raskustega, mis on seotud kõrge lahutusvõimega piltide töötlemisega. Siiski on tekkinud küsimusi seoses latentsuse ja ulatuslike koolitusressursside vajadusega.

Hiina Hongkongi Ülikooli ja SmartMore’i teadlaste välja pakutud uuendused on toonud kaasa uue raamistiku nimega Mini-Gemini, mis surub VLM-e piire, täiustades multimodaalset sisendi töötlemist. See, mis eristab Mini-Geminit olemasolevatest mudelitest, on selle kahepoolse kodeerija süsteemi rakendamine ja ainulaadne ruutuinfo kaevandamise tehnika koos spetsiaalse kvaliteetse andmekogumiga. Need edusammud võimaldavad Mini-Gemini-l tõhusalt töödelda kõrge lahutusvõimega pilte ja luua kontekstirikast visuaalset ja tekstilist sisu.

Mini-Gemini taga olev metodoloogia hõlmab kahepoolse kodeerija süsteemi, mis ühendab konvolutsioonilise närvivõrgu, et viimistleda pilditöötlust, ja ruutuinfo kaevandamise tehnikat, et eraldada üksikasjalikke visuaalseid vihjeid. Raamistikku koolitatakse komposiitandmestikul, mis sisaldab kvaliteetseid pildi-teksti paare ja ülesannetega seotud juhiseid, et parandada mudeli jõudlust ja laiendada selle rakenduste ulatust. Mini-Gemini on ühilduv erinevate Suurte keelemudelitega, võimaldades tõhusat mistahes-tahes järeldust. See seadistus võimaldab Mini-Gemini-l saavutada ületamatuid tulemusi null-proovi hindamistes ja toetada arenenud multimodaalseid ülesandeid.

Minu-Gemini tõhususe hindamisel demonstreeris raamistik silmapaistvat esitlust mitmes nullproovi hindamises. Märkimisväärne on, et see ületas Gemini Pro mudelit MM-Vet ja MMBench hindamistes, saavutades vastavalt 79,6 ja 75,6 punkti. Konfigureerituna Hermes-2-Yi-34B-ga, saavutas Mini-Gemini impressionantse tulemuse 70,1 punkti VQAT hindamises, ületades olemasoleva LLaVA-1.5 mudeli kõikides hindamismõõdikutes. Need tulemused kinnitavad Minu-Gemini täiustatud multimodaalsete töötlemisvõimete usaldusväärsust ning tõstavad esile selle tõhusust ja täpsust keerukate visuaalsete ja tekstiliste ülesannete käsitlemisel.

Kuigi Mini-Gemini näitab olulist edasiminekut multimodaalsete AI-võimedega, tunnistavad teadlased, et selle visuaalse mõistmise ja järeldusvõime osas on endiselt ruumi täiustamiseks. Nad kinnitavad, et edasised uuringud keskenduvad edasijõudnud meetodite uurimisele visuaalse mõistmise, järeldamise ja genereerimise valdkonnas.

The source of the article is from the blog reporterosdelsur.com.mx