Nova generacija modela umetne inteligence: Vrtavko-UI

Polje umetne inteligence doživlja prebojne trenutke, saj je podjetje Apple predstavilo inovativen multimodalni jezikovni model imenovan Vrtavko-UI. Ta model presega tradicionalne modele jezika, saj pokaže globoko razumevanje multimodalnih elementov, kot so slike in zvok.

Glavni cilj Vrtavko-UI je razumevanje in interpretacija uporabniškega vmesnika mobilnih naprav. Konkretno je treniran za prepoznavanje različnih elementov domačega zaslona uporabnika, vključno z ikonami aplikacij in majhnim besedilom. Prejšnji multimodalni jezikovni modeli so imeli težave pri prepoznavanju teh elementov zaradi njihove majhnosti. Da bi premagali to oviro, so raziskovalci pri Appleu integrirali sposobnosti “kakršnekoli ločljivosti” v Vrtavko-UI, kar mu omogoča učinkovito povečanje podrobnosti zaslona.

Poleg izboljšanih sposobnosti vizualne prepoznavnosti se lahko Vrtavko-UI pohvali s sposobnostmi referenciranja, postavljanja v kontekst ter sklepanja. Te napredne funkcionalnosti omogočajo modelu, da popolnoma razume zaslone uporabniškega vmesnika ter izvaja naloge na podlagi njihove vsebine. Raziskovalni članek o Vrtavko-UI poudarja njegovo vrhunsko zmogljivost v primerjavi z GPT-4V, multimodalnim jezikovnim modelom podjetja OpenAI, pri različnih preizkusih in nalogah.

Vrtavko-UI se je izkazal bolje od GPT-4V v osnovnih nalogah, kot so prepoznavanje ikon, optično prepoznavanje znakov, razvrščanje pripomočkov, iskanje ikon in iskanje pripomočkov, tako na iPhonu kot na platformi Android. Edina izjema je bila naloga iskanja besedila na iPhonu, kjer je GPT-4V dosegel nekoliko višjo natančnost. Poleg tega je GPT-4V pokazal majhno prednost pri postavljanju pogovorov o ugotovitvah uporabniškega vmesnika, presegajoč Vrtavko-UI za majhen del. Vendar pa raziskovalci poudarjajo, da je uporaba surovih koordinat s strani Vrtavko-UI namesto predhodno določenih okvirjev opazna lastnost, ki ga postavlja kot uporabno alternativo.

Čeprav Apple ni izrecno navedel specifičnih aplikacij za Vrtavko-UI, raziskovalci poudarjajo njegov potencial za pozitiven vpliv na naloge povezane z uporabniškim vmesnikom. Napredne sposobnosti Vrtavko-UI ponujajo pomembne možnosti za izboljšanje glasovnih pomočnikov, kot je Siri. Globoko razumevanje uporabnikovega zaslona aplikacije in sposobnost izvajanja nalog na podlagi te vednosti bi lahko Siritu omogočilo izvajanje zapletenih navodil brez izrecnih postopkov.

Pojava Vrtavko-UI se ujema s spreminjajočo se pokrajino AI pomočnikov. Uporabniki vse bolj iščejo pomočnike, ki lahko avtonomno dokončajo naloge, kot je prikazano pri AI napravah, kot je Rabbit R1. Te naprave lahko rezervirajo polete ali naročijo obroke brez izrecnih navodil, kar ponuja neovirano uporabniško izkušnjo. Vrtavko-UI podjetja Apple bi lahko bistveno prispeval k razvoju bolj sposobnih in neodvisnih glasovnih pomočnikov, spreminjajoč način interakcije uporabnikov z AI tehnologijo.

Pogosto zastavljena vprašanja (FAQ)

The source of the article is from the blog papodemusica.com

Privacy policy
Contact