Apple sin nyvinning innan AI: Forståing av skjermkontekst

Apple sine forskarar har nyleg oppnådd ein betydeleg nyvinning innan kunstig intelligens (AI) ved å utvikle eit system som heilt og holdent kan forstå og oppfatte skjermkontekst. Kjend som ReALM (Referanseoppløysing Ved Språkmodell), nyttar dette systemet kraftige språkmodellar for å takle den komplekse oppgåva med referanseoppløysing og gjer det om til eit reint språkmodelleringsproblem. Ved å gjere dette, gjer ReALM det mogleg for AI å forstå tvetydige referansar til on-screen entitetar, i tillegg til kontekstuelle signal i samtalar og bakgrunnsinformasjon, som resulterer i meir naturlege interaksjonar med stemmeassistentar.

Å forstå kontekst, inkludert referansar, er avgjerande for optimal funksjon av samtaleassistentar. Med denne nyvinninga kan brukarar gi spørsmål om alt dei ser på skjermen deira, og opplever dermed ein sann hands-free-oppleving med stemmeassistentar. ReALM har vist imponerande ytelsesframsteg samanlikna med eksisterande metodar, og har til og med overgått GPT-4 på denne spesifikke oppgåva.

Ein av dei merkbare innovasjonane til ReALM ligg i evna til å rekonstruere skjermlayouten ved å nyttiggjere analyserte on-screen entitetar og deira respektive plasseringar, noko som genererer ei tekstlig representasjon som nøyaktig fangar den visuelle ordninga. Ved å finjustere språkmodellar spesielt for referanseoppløysing, har forskarane demonstrert effektiviteten til ReALM i å handtere skjerm-baserte referansar.

Sjølv om forskingsfunna er svært lovande, er det viktig å erkjenne avgrensingane ved å berre stole på automatisert parsing av skjermar. Meir intrikate visuelle referansar, som å skilje mellom fleire bilete, ville truleg krevje inkorporering av datavisjon og multimodale teknikkar.

Apple sine fremskritt innan AI-forsking har stor betyding, sjølv om selskapet heng etter sine tech-rivalar på AI-landskapet. Forskingslaboratoriane til selskapet har gjort imponerande framsteg innan område som multimodale modellar, AI-dreivne animasjonsverktøy og utvikling av spesialisert AI innanfor eit budsjett. Desse fremskrittane illustrerer tydeleg Apple si forplikting til å forbetre Siri og andre produkt, og gjere dei meir samtale- og kontekst-kunnskapsrike.

Likevel står Apple overfor hard konkurranse frå tech-giganter som Google, Microsoft, Amazon og OpenAI, som alle har kapitalisert aggressivt på generativ AI på tvers av ulike domene. Sjølv om Apple gjekk inn i AI-marknaden relativt seint, gir dei store økonomiske ressursane, sterk merkeloyalitet, eineståande ingeniørmoglegheiter og tettsamansette produktportefølje ein sjanse til å ta att det tapte.

Under Worldwide Developers Conference i juni, blir det venta at Apple vil presentere ein ny stor språkmodellramme, følgd av ein «Apple GPT» chatbot, som viser dei AI-drevne funksjonane integrerte i økosystemet deira. CEO Tim Cook har antyda dei omfattande AI-innsatsane innanfor selskapet, og stadfester Apples engasjement for å avansere på dette området.

I ein stadig meir intens kamp om å dominere AI, har Apple som mål å ha ein signifikant innverknad på forma på den allomfattande, verkeleg intelligente databehandlinga. Framstega i AI-forsking, særleg i å forstå skjermkontekst, fører Apple nærmare målet sitt.

Ofte stilte spørsmål (FAQ)

The source of the article is from the blog newyorkpostgazette.com

Privacy policy
Contact