Нова реалізація ідеї Apple: ІПМ зірок – оригінальний погляд на мультимодальні мовні моделі

Сфера штучного інтелекту (ІІ) стрімко розвивається, а компанія Apple є однією з провідних у цій галузі. У їхній останній науковій роботі була представлена Інноваційна Мовна Модель (ІММ) з ім’ям ІПМ зірок. Ця модель перевершує традиційні моделі текстів, оскільки демонструє глибоке розуміння мультимодальних елементів, таких як зображення та аудіо.

Однією з основних мет ІПМ зірок є розуміння та інтерпретація екранів користувацького інтерфейсу (UI). Зокрема, вона навчена розпізнавати різні елементи домашнього екрану користувача, включаючи піктограми додатків та малі тексти. Попередні мультимодальні мовні моделі мали проблеми з ідентифікацією цих елементів через їхній малий розмір. Для подолання цієї складності дослідники Apple інтегрували можливості “будь-якої роздільної здатності” в ІПМ зірок, дозволяючи їй ефективно збільшувати деталі екрану.

Крім покращених здатностей візуального розпізнавання, ІПМ зірок володіє можливостями посилання, базування та мислення. Ці передові функції дозволяють моделі повністю розуміти екрани інтерфейсу користувача та виконувати завдання на основі їх вмісту. Дослідницький документ ІПМ зірок підкреслює його переваги порівняно з GPT-4V, мультимодальної мовленнєвої моделі OpenAI, у різних вимірюваннях та завданнях.

ІПМ зірок перевершив GPT-4V у елементарних завданнях, таких як розпізнавання піктограм, OCR, класифікація віджетів, знаходження піктограм та знаходження віджетів, на платформах iPhone та Android. Єдиним винятком було завдання знаходження тексту на iPhone, де GPT-4V досягла незначно вищої точності. Більше того, GPT-4V продемонстрував маргінальну перевагу в базуванні розмов на виявленому UI, випереджаючи ІПМ зірок невеликою різницею. Однак дослідники зазначають, що використання ІПМ зірок сирих координат замість заздалегідь визначених блоків є помітним та позиціонує його як життєздатну альтернативу.

Хоча Apple не конкретизувала конкретні застосування ІПМ зірок, дослідники наголошують на його потенціалі позитивно вплинути на завдання, пов’язані з UI. Розширені можливості ІПМ зірок відкривають значні перспективи для покращення голосових помічників, як от Siri. Глибоке розуміння додаткового екрану користувача та здатність виконувати завдання на основі цих знань може дозволити Siri виконувати складні інструкції без явних поетапних вказівок.

Поява ІПМ зірок узгоджується з змінним обличчям помічників ШІ. Користувачі все частіше шукають помічників, які можуть автономно виконувати завдання, як показано гаджетами з ШІ, такими як Rabbit R1. Ці пристрої можуть забронювати рейси чи замовляти страви без явних інструкцій, пропонуючи безшовний досвід користувача. ІПМ зірок від Apple може в значній мірі сприяти розвитку більш можливих та незалежних голосових помічників, революціонізуючи спосіб взаємодії користувачів з технологією ШІ.

Питання та відповіді (FAQ)

1. Що таке ІПМ зірки?
ІПМ зірок – це мультимодельна мовна модель, розроблена компанією Apple, яка демонструє розуміння різних елементів екрана мобільного додатка користувача, виходячи поза розуміння тексту.

2. Як ІПМ зірки відрізняється від традиційних мовних моделей?
Традиційні мовні моделі спрямовані виключно на розуміння тексту, тоді як ІПМ зірки поєднує мультимодальні елементи, такі як зображення та аудіо, що пропонує ширше розуміння користувацьких інтерфейсів.

3. Які переваги ІПМ зірки?
Покращені можливості ІПМ зірки мають значний потенціал для покращення додатків, пов’язаних з інтерфейсом користувача. Крім того, він може поліпшити роботу голосових помічників, таких як Siri, дозволяючи виконувати завдання без явних поетапних інструкцій.

4. Як ІПМ зірки порівнюється з іншими мовними моделями?
У бенчмарк тестах ІПМ зірки перевершив GPT-4V, мультимодельну мовну модель OpenAI, в різних елементарних завданнях. Дослідники зауважили лише незначну перевагу GPT-4V у базуванні розмов на виявлених в UI відшуканнях.

5. Якого майбутнього можна очікувати від ІПМ зірки?
Хоча Apple не чітко сформулювала свої плани щодо ІПМ зірки, потенційний вплив моделі на додатки, пов’язані з інтерфейсом користувача, та голосові помічники, такі як Siri, є очевидним. Він може відкрити шлях для більш незалежних і здатних голосових помічників.

Посилання на додаткову інформацію про дослідження Apple в галузі ІІ та їхні продукти, відвідайте веб-сайт [Apple](https://www.apple.com).

The source of the article is from the blog guambia.com.uy

Privacy policy
Contact