Нове покоління мульти-модальних моделей штучного інтелекту: перехід на новий рівень

У сфері штучного інтелекту Візійні Мовні Моделі (Vision Language Models – VLMs) стали переломним поєднанням Комп’ютерного Зору (CV) і Обробки Природної Мови (NLP). Ця інтеграція двох дисциплін ставить за мету реплікувати розуміння, характерне для людини, шляхом інтерпретації та генерації контенту, що поєднує зображення та слова. Це поєднання представляє складне завдання, яке привертає увагу дослідників по всьому світу.

Останні розробки у цій галузі представили моделі, такі як LLaVA та BLIP-2, які використовують великі колекції пар зображень та тексту для докладної настройки крос-модальної відповідності. Ці нововведення спрямовані на підвищення роздільної здатності зображень, покращення якості токенів та вирішення обчислювальних проблем, пов’язаних з обробкою зображень високої роздільності. Проте вони стикаються з проблемами, пов’язаними з латентністю та потребою у значних ресурсах для навчання.

Інновації, запропоновані дослідниками з Китайського Університету Гонконгу та SmartMore, породили нову концепцію під назвою Mini-Gemini, яка розширює межі VLMs шляхом поліпшення обробки мульти-модального вводу. Те, що відрізняє Mini-Gemini від існуючих моделей, – це впровадження подвійної системи кодування та унікальної техніки збору інформації про фрагменти, поєднаної з спеціально обраною вищою якістю набору даних. Ці нововведення надають Mini-Gemini можливість ефективно обробляти зображення високої роздільності та генерувати контент, що поєднує в собі багатий на контекст візуальний та текстовий зміст.

Методологія Mini-Gemini базується на подвійній системі кодування, яка поєднує згорткову нейронну мережу для вдосконаленої обробки зображень та техніку збору інформації про фрагменти для детального видобутку візуальних підказок. Фреймворк навчається на композитному наборі даних, що об’єднує пари вищої якості зображень та тексту та завдання-орієнтовані інструкції для підвищення продуктивності моделі та розширення її можливостей застосування. Mini-Gemini сумісний з різними Великими Мовними Моделями – від 2B до 34B параметрів, що дозволяє ефективно проводити будь-яке до будь-якого висновок. Ця конфігурація дозволяє Mini-Gemini досягати високих результатів у нульових бенчмарках та підтримувати складні мульти-модальні завдання.

Під час оцінки ефективності Mini-Gemini фреймворк продемонстрував видатні результати у декількох нульових бенчмарках. Зокрема, він перевершив модель Gemini Pro в бенчмарках MM-Vet та MMBench, досягнувши показники відповідно 79,6 та 75,6. При конфігурації з Hermes-2-Yi-34B Mini-Gemini показав вражаючий результат 70,1 у бенчмарку VQAT, перевершуючи існуючу модель LLaVA-1.5 за всіма оцінюваними метриками. Ці результати підтверджують високі мульти-модальні можливості Mini-Gemini та підкреслюють його ефективність та точність у роботі з складними візуальними та текстовими завданнями.

Незважаючи на те, що Mini-Gemini є значним кроком уперед у мульти-модальних можливостях штучного інтелекту, дослідники визнають, що ще є місце для поліпшення його візуального розуміння та мислення. Вони стверджують, що у майбутніх дослідженнях будуть досліджуватися передові методи візуального розуміння, мислення та генерації.

У підсумку, Mini-Gemini відкриває нову еру в VLMs завдяки своїй системі подвійного кодування, техніці збору інформації про фрагменти та вищоякісних наборів даних. За його видатною продуктивністю у чисельних бенчмарках Mini-Gemini перевищує встановлені моделі, відкриваючи шлях до досягнень у галузі мульти-модального штучного інтелекту. Поки дослідники продовжують свою роботу, вони прагнуть покращити візуальне розуміння та мислення Mini-Gemini, тим самим розширюючи межі технологій штучного інтелекту.

Джерело: Marktechpost

Часті запитання (FAQ)

1. Що таке Візійні Мовні Моделі (VLMs)?

Vision Language Models (VLMs) – це унікальне поєднання Комп’ютерного Зору (CV) та Обробки Природної Мови (NLP). Вони спрямовані на тлумачення та генерацію контенту, який поєднує в собі зображення та слова, імітуючи розуміння, характерне для людини.

2. Як Mini-Gemini покращує обробку мульти-модального вводу?

Mini-Gemini покращує обробку мульти-модального вводу завдяки впровадженню подвійної системи кодування та техніки збору інформації про фрагменти. Ці інновації дозволяють ефективно обробляти зображення високої роздільності та генерувати контент, що поєднує в собі багатий на контекст візуальний та текстовий зміст.

3. Які бенчмарки перевершив Mini-Gemini?

Mini-Gemini перевищив встановлені моделі у декількох нульових бенчмарках, включаючи MM-Vet, MMBench та VQAT.

4. Які плани на майбутнє має Mini-Gemini?

Дослідники Mini-Gemini планують дослідити передові методи візуального розуміння, мислення та генерації для подальшого поліпшення його можливостей.

5. Які дослідники провели це дослідження?

Ці дослідження виконали дослідники з Китайського Університету Гонконгу та SmartMore.

The source of the article is from the blog elblog.pl