Иновации в сферата на изкуствен интелект: Apple представи Ferret-UI

Изкуственият интелект непрекъснато напредва, а Apple е на челните позиции с новото си научно изследователско произведение, представяйки Ferret-UI – проразгледан мултимодален модел за езика. Този модел отива над текстовото разбиране и демонстрира разбиране на мултимодални елементи като изображения и аудио. Ferret-UI е специално създаден, за да разбира и интерпретира потребителските интерфейси на мобилни устройства (UI), включително икони на приложения и малки текстове.

Един от ключовите предизвикателства при разработването на мултимодален езиков модел е точното идентифициране на малки елементи на потребителското интерфейс-екран. Изследователите на Apple преодоляха този предизвикател, като интегрираха възможности за „всяко резолюция“ в Ferret-UI, което му позволява да увеличи ефективно детайлите на екрана. Това подобрение значително подобрява визуалните му разпознавателни способности.

Ferret-UI също разполага с напреднали функции като привеждане, насочване и резониране. Тези възможности позволяват на модела да разбира напълно потребителските интерфейси и да изпълнява задачи въз основа на техните съдържание. В бенчмарк тестове Ferret-UI надминава GPT-4V, мултимодалния езиков модел на OpenAI, в различни елементарни задачи като разпознаване на икони, OCR, класификация на виджети, намиране на икони и намиране на виджети, както на iPhone, така и на Android платформи. GPT-4V имаше леко предимство во grounding conversation на UI, но уникалното използване на Ferret-UI на сурови координати вместо предварително дефинирани кутии го позиционира като жизнеспособна алтернатива.

Въпреки че Apple не е споменавала конкретните приложения за Ferret-UI, изследователите подчертават възможността му да повлияе позитивно върху задачите, свързани с потребителския интерфейс, и да подобри гласовите асистенти като Siri. С негово дълбоко разбиране на приложението на потребителя и способността да изпълнява задачи въз основа на тази информация, Ferret-UI може да позволи на Siri да изпълнява сложни инструкции без ясни стъпкови инструкции. Този напредък се вписва в променящият се пейзаж на гласовите асистенти на изкуствения интелект, където потребителите все по-често търсят асистенти, които могат автономно да изпълняват задачи. Ferret-UI на Apple би могъл да допринесе значително за развитието на по-способни и независими гласови асистенти, променяйки начина, по който потребителите взаимодействат с технологията на изкуствения интелект.

Докато Ferret-UI продължава да се развива, той носи голямо обещание за бъдещето на приложенията, свързани с потребителския интерфейс и гласовите асистенти. Напредъците на Apple в технологията на изкуствения интелект позиционират компанията като лидер в индустрията, насърчавайки иновациите и премахвайки граници. Появата на мултимодални езикови модели като Ferret-UI демонстрира потенциала на изкуствения интелект да повлияе в значителна степен върху различните сектори и да подобри общото потребителско изживяване.

За повече информация относно научните изследвания на Apple в областта на изкуствения интелект и нейните продукти, посетете уебсайта на Apple.

The source of the article is from the blog maltemoney.com.br

Privacy policy
Contact