Hugging Face dezvăluie Idefics2: un model de inteligență artificială vizuală compactă și îmbunătățită

Hugging Face a făcut progrese semnificative în domeniul inteligenței artificiale prin modernizarea modelului său vizual de limbaj, Idefics2, crescut eficiența și funcționalitățile acestuia, reducând complexitatea. Această nouă iterație, rezultată din tehnologiile inițial dezvoltate de DeepMind, a redus parametrii de la 80 de miliarde la un număr mai ușor de gestionat de 8 miliarde, aliniindu-se cu competitorii contemporani precum DeepSeek-VL și LLaVA-NeXT-Mistral-7B. Pe lângă faptul că este open-source și îmbunătățit, se laudă cu capacități OCR îmbunătățite care îl poziționează ca fiind extrem de eficient în analiza datelor și activităților de afaceri.

Una dintre avansurile cheie în Idefics2 constă în competențele sale sofisticate de prelucrare a imaginilor. Modelul poate acum manipula imagini cu rezoluția originală de până la 980 x 980 pixeli fără a fi nevoie să modifice raportul de aspect pentru a se potrivi cu formatele pătrate convenționale. Această evoluție în utilizabilitate este completată de funcționalitatea OCR, care facilitează extragerea textului din imagini și documente cu o precizie nouă, facilitând o analiză mai profundă și un răspuns la datele vizuale, numere și conținutul textual.

Descriind arhitectura în blogul său, Hugging Face remarcă că noul model simplifică fluxul de lucru, cu un codificator vizual care procesează imagini în primul rând, urmat de agregarea perceptuală și o proiecție de modalitate perceptuală cu mai multe straturi. Procesul se încheie cu o secvență de agregare unită cu înglobarea de text, creând o secvență interconectată de date imagine și text. Această structură reconfigurată îmbunătățește eficiența modelului în abordarea sarcinilor multimodale complexe, făcându-l nu doar mai eficient, ci și mai ușor accesibil pentru profesioniștii din diferite sectoare.

The source of the article is from the blog smartphonemagazine.nl