Taikant ekranų kontekstą – Apple's pažanga dirbtinio intelekto srityje

Apple tyrinėtojams neseniai pavyko pasiekti reikšmingą laimėjimą dirbtinio intelekto (AI) srityje sukūrus sistemą, kuri gali išsamiai suprasti ir suvokti ekranų kontekstą. Žinoma kaip ReALM (Reference Resolution As Language Modeling), ši sistema naudoja galingus kalbos modelius siekdama spręsti sudėtingą nuorodų rezoliucijos uždavinį, paverčiant jį grynu kalbos modeliavimo uždaviniu. Taip darydama ReALM leidžia AI suprasti dviprasmiškas nuorodas į ekrane esančius objektus, taip pat kontekstinius požymius pokalbiuose ir fone, rezultatu būdamas natūralesnėmis sąveikomis su balso asistentais.

Supratimas apie kontekstą, įskaitant nuorodas, yra būtinas optimaliam pašnekamųjų asistentų veikimui. Šiuo laimėjimu vartotojai įgalioti teikti užklausas apie bet ką, ką jie mato savo ekrane, suteikiant tikrąją rankų laisvumo patirtį su balso asistentais. ReALM pasižymi pastebimais našumo padidėjimais, lyginant su esamomis metodikomis, netgi lenkdama GPT-4 šiame konkretiame uždavinyje.

Vienas iš pastebimų ReALM naujovių slypi jo galimybe atkurti ekrano išdėstymą naudojant išanalizuotus ekrane esančius objektus ir jų atitinkamas vietas, generuojant tekstualinę reprezentaciją, kuri tiksliai atspindi vizualinį išdėstymą. Prisitaikydami kalbos modelius specifiškai nuorodų rezoliucijai, tyrėjai sėkmingai įrodė ReALM efektyvumą, tvarkant ekranuose esančias nuorodas.

Nors tyrimo rezultatai labai žadančiu, reikia pripažinti apribojimus, kurie kyla remiantis vien tik automatiniam ekranų analizavimui. Sudėtingesnėms vizualinėms nuorodoms, tokoms kaip skiriamasis tarp kelių vaizdų, turbūt tektų pritaikyti kompiuterinį regėjimą ir multimedijos technologijas.

Apple pažangos dirbtinio intelekto tyrimuose svarba yra didelė, nepaisant to, kad įmonė atsilieka nuo technologijų konkurentų AI kraštovaizdyje. Įmonės tyrimų laboratorijos padarė pastebimus pažangos žingsnius tokiuose srityse kaip multimodaliniai modeliai, AI varomos animacijų įrankiai ir specializuotos AI plėtra biudžeto ribose. Šie pasiekimai aiškiai iliustruoja Apple pasiryžimą gerinti Siri ir kitus produktus, suteikiant jiems labiau komunikabilų ir kontekstingą pobūdį.

Tačiau Apple susiduria su kova su technologijų gigantais, tokiomis kaip „Google“, „Microsoft“, „Amazon“ ir „OpenAI“, kurie agresyviai kapitalizavo generatyvinę AI visose skirtingose srityse. Nors Apple pateko į AI rinką santykinai vėlai, jo reikšmingos finansinės išteklių, stipri prekės ženklo lojalumo, išskirtinės inžinerijos gebėjimų ir glaudžiai integruotos produkto portfelio suteikia galimybę pasivyti.

Birželį vykstančiose Pasaulinėse Kūrėjų Konferencijoje tikimasi, kad Apple pristatys naują didelio kalbos modelio struktūrą, kartu su „Apple GPT“ chatbotu, demonstruojančiu įdiegtas AI savybes savo ekosistemoje. Vadybininkas Timas Coco užmačia išsamius AI pastangas įmonėje, patvirtindamas Apple pasiryžimą pažengti šioje srityje.

Kasdien didėjant kovai dėl AI dominavimo, Apple siekia turėti reikšmingą įtaką formuojant visiškai įsiskverbiantį, iš tikrųjų protingą kompiuterijos pokario. AI tyrimų pažanga, ypač suprantant ekranų kontekstą, Apple artina prie šio tikslo.

### Dažniausiai užduodami klausimai (DUK)

1. Kas yra ReALM?
ReALM (Reference Resolution As Language Modeling) yra sistema, kurią sukūrė Apple tyrinėtojai ir kuri naudoja didelius kalbos modelius efektyviai įveikti nuorodų rezoliucijos uždavinį, leidžiant dirbtinei intelektui suprasti dviprasmiškas nuorodas į ekrane esančius objektus, pokalbių kontekstą ir fono informaciją.

2. Kaip ReALM pasiekia geresnį našumą nei esamos metodikos?
ReALM pasiekia pagerintą našumą smulkiai adaptyvuodamas kalbos modelius specifiškai nuorodų rezoliucijai ir atstatant ekrano išdėstymą naudojant išanalizuotus ekrane esančius objektus ir jų vietas.

3. Kokie yra apribojimai, remiantis vien tik automatišku ekranų analizuojimu?
Automatiškas ekranų analizavimas turi apribojimus, kai kalbama apie sudėtingesnes vizualines nuorodas, tokias kaip skiriamasis tarp kelių vaizdų. Norint spręsti šias problemas, turbūt reikėtų įtraukti kompiuterinį regėjimą ir multimedijos technologijas.

4. Kaip Apple AI tyrimai lyginami su konkurentais?
Apple padarė reikšmingus pažangos AI tyrimuose, nepaisant atsilikimo nuo konkurentų kaip „Google“, „Microsoft“, „Amazon“ ir „OpenAI“. Nors įmonė į ai rinką žengė vėlai, jos gana stambūs finansiniai ištekliai, tvirta prekės ženklo lojalumas, išskirtiniai inžinerijos gebėjimai ir glaudžiai integruotas produktų portfelis suteikia galimybę jai pasivyti.

5. Ką galime tikėtis iš Apple, kalbant apie AI paremtas funkcijas?
Birželio mėnesį vykstančiose Pasaulinėse Kūrėjų Konferencijose tikimasi, kad Apple pristatys naują didelio kalbos modelio struktūrą ir pristatys „Apple GPT“ chatbotą, demonstruojantį su jais integruotas AI savybes.

6. Kaip Apple siekia formuoti ateities kompiuterijos AI formase?
Apple siekia turėti įtakos formuojant visaapimančios ir iš tikrųjų protingos kompiuterijos era. Pažanga, padaryta Apple AI tyrimuose, ypač suprantant ekranų kontekstą, yra artimesnė siekiant šio tikslo.

The source of the article is from the blog combopop.com.br