Mini-Gemini: The Future of Multi-Modal Input Processing

Naujoji epocha dirbtinio intelekto srityje – Medžiaga Kalbos Modeliai (VLM) – yra revoliucingas Kompiuterinės Vaizdo (CV) ir Natūralios Kalbos Aprocesavimo (NLP) integravimas. Šių dviejų disciplinų derinys siekia atkartoti žmogišką supratimą, interpretuodamas ir generuodamas turinį, kuris bešūniškai jungia vaizdus su žodžiais. Šis sujungimas kelia sudėtingą iššūkį, kuris sužavėjo tyrėjus visame pasaulyje.

Naujausios pažangos šioje srityje pristatė modelius kaip LLaVA ir BLIP-2, kurie naudoja didelių vaizdo-teksto porų rinkinius, siekdami ištaisyti kryžmikraščių sutapimą. Šios pažangos buvo nukreiptos į vaizdo raiškumo gerinimą, gerinant žetonų kokybę ir spręsti su aukštos raiškos vaizdais susijusias skaičiavimo sunkumų problemas. Tačiau buvo kilę problemų, susijusių su vėlavimu ir reikalavimu reikšmingose mokymo išteklių.

Išpuikos, pristatytos Kinijos Honkongo Universiteto tyrėjų ir SmartMore, sukūrė naują vizijos modelio karkasą, vadinamą Mini-Gemini, kuris plėtoja VLM ribas, gerindamas daugiabendrį įvedimo apdorojimą. Tai, kas atskiria Mini-Gemini nuo esamų modelių, yra jo dvigubo koduotojo sistemos realizavimas ir unikali detalių informacijos išgavimo technika, jungiant su specialiai suderintu aukštos kokybės duomenų rinkiniu. Šios pažangos suteikia Mini-Gemini galią veiksmingai apdoroti aukštos raiškos vaizdus ir generuoti turinį, turintį kontekstą, turtingą vaizdine ir tekstinine informacija.

Mini-Gemini metodologija apima dvigubo koduotojo sistemą, jungiantį konvoliucinį neuroninį tinklą smulkiems vaizdų apdorojimams ir detalią vizualinės info išgavimo techniką detalesniu vizualinių signalų išgavimu. Grandinė mokoma kompoziciniu duomenų rinkiniu, integruojančiu aukštos kokybės vaizdo-teksto poras ir užduoties orientuotas instrukcijas, siekiant pagerinti modelio veikimą ir išplėsti jo taikymo sritį. Mini-Gemini yra suderinama su įvairiais Dideliais Kalbos Modeliais (LLM), prasidedant nuo 2B iki 34B parametrų, leidžiančia efektyvų bet koks rinkinių įvertinimą. Ši sąranka leidžia Mini-Gemini pasiekti viršūniškus rezultatus nulinėse bandymų lentelėse ir palaikyti pažangias daugiabendrės užduotis.

Vertinant Mini-Gemini veiksmingumą, palyginamając vadinasi, įspūdingą ligšioliniame

© Marktechpost

Dažnai Užduodami Klaustukai (DUK)

The source of the article is from the blog tvbzorg.com

Privacy policy
Contact