Jaunrade or The Art of Creation in Multi-Modal AI Landscape

Mākslīgā inteliģence ir iedziļināšanās visos jaunievedumos, kas attiecas uz attēlu un teksta integrēšanu, radot sustinētu funkciju, kas apvieno datus no datorredzes un dabiskās valodas apstrādes jomas. Ne tik senā pagātnē radītos modeļus LLaVA un BLIP-2 papildināja jauni spēkrati – Čīnas Honkongas Universitātes un SmartMore pētnieku izstrādātais Mini-Gemini, kas ir izcilīgs ne tikai ar savu īpašo tehnoloģiju, bet arī ar augstas kvalitātes datu kopu.

Mini-Gemini iekļauj divkodolu sistēmu un unikālu fragmentu informācijas iegūšanas tehnikas, tādējādi nodrošinot efektīvu ilgstenisks attēlu apstrādes un bagātīgu vizuālā un teksta saturu. Augstas izšķirtspējas attēlu apstrāde un augstas kvalitātes teksta saturu satura ģenerēšana ir tikai dažas no daudzajām iespējām, ko sniedz Mini-Gemini.

Mini-Gemini efektivitāte balstās uz divējādas kodētājsistēmas principu, kas kombinē konvolūcijas neironu tīklu vizuālās informācijas apstrādei un fragmentu informācijas iegūšanas tehniku detalizētai vizuālo norāžu ekstrakcijai. Sistēmu trenē kompozīts datukopums, kas ietver augstas kvalitātes attēlu un teksta apvienojumus, kā arī uzdevuma orientētas instrukcijas modelim veiktības uzlabošanai un pielietojuma jomas paplašināšanai. Tas liek Mini-Gemini būt saderīgam ar dažādiem Lielajiem Valodas Modeļiem (LLMs), kas darbojas no 2B līdz 34B parametriem, iespējot efektīvu jebkādus izejas punktus. Šis iestatījums nodrošina Mini-Gemini spēju panākt izcilus rezultātus nulles punktu testos un atbalstīt uzlabotas multi-modālās uzdevumus.

Novērtējot Mini-Gemini efektivitāti, sistēma parādīja izcilu veiktspēju vairākos nulles punkta testos. Atzīstami, tas pārspēja Gemini Pro modeļu MM-Vet un MMBench testos, sasniedzot attiecīgi 79.6 un 75.6 rezultātus. Konfigurējot ar Hermes-2-Yi-34B, Mini-Gemini guva iespaidīgu rezultātu 70.1 VQAT testā, pārspējot esošo LLaVA-1.5 modeli visos novērtētajos parametros. Šie rezultāti apstiprina Mini-Gemini uzlabotās multi-modālās apstrādes spējas un atspoguļo tās efektivitāti un precizitāti apstrādē sarežģītos vizuālos un teksta uzdevumos.

Kaut arī Mini-Gemini ir būtisks solis uz priekšu multi-modālās mākslīgās inteliģences spējās, pētnieki atzīst, ka joprojām ir iespējas uzlabot tās vizuālo saprašanas un loģikas spējas. Viņi apgalvo, ka turpmākie pētījumi izpētīs jaunākās metodes vizuālajā izpratnē, loģikā un ģenerācijā.

Kopumā Mini-Gemini ievieš jaunu era VLMs caur sava divkodolu sistēmas, fragmentu informācijas iegūšanas tehnikas un augstas kvalitātes datu kopas. Ar tā izcilajiem rezultātiem vairākos testos, Mini-Gemini pārspēj esošos modeļus, tādējādi liedzot ceļu progresam multi-modālās mākslīgās inteliģences sfērā. Pētnieki turpina darboties, centoties uzlabot Mini-Gemini vizuālo saprašanu un loģiku, lai izšķirtos mūsdienu mākslīgās inteliģences tehnoloģiju robežas.

Avots: Marktechpost

Bieži uzdotie jautājumi (BUJ)

1. Kas ir Vizionāriju valodas modeļi (VLMs)?
Vizionāriju valodas modeļi (VLMs) ir unikāla integrācija datorredzes un dabiskās valodas apstrāde, kas cenšas tulkojuma un turpinājuma saturu, kas apvieno attēlus un vārdus, atdarinot cilvēka līdzīgu saprašanu.

2. Kā Mini-Gemini uzlabo multi-modālo ievades apstrādi?
Mini-Gemini uzlabo multi-modālo ievades apstrādi, izmantojot divkodolu sistēmu un fragmentu informācijas iegūšanas tehniku. Šie jaunievedumi ļauj efektīvi apstrādāt augstas izšķirtspējas attēlus un radīt bagātīgu vizuālo un tekstveida saturu.

3. Kuros testos Mini-Gemini pārspējis citus modeļus?
Mini-Gemini ir pārspējis esošos modeļus vairākos nulles punktu testos, ieskaitot MM-Vet, MMBench un VQAT.

4. Kādi ir nākotnes plāni Mini-Gemini?
Mini-Gemini pētnieki plāno izpētīt jaunākās metodes vizuālajā saprašanā, loģikā un ģenerācijā, lai uzlabotu tās spējas.

5. Kāda ir šīs pētniecības avots?
Šis pētījums ir kreditēts Ķīnas Honkongas Universitātes un SmartMore pētniekiem.

The source of the article is from the blog myshopsguide.com

Web Story