Nowy Przełom Apple w dziedzinie sztucznej inteligencji: Otoczenie ekranowe

Najnowsze prace badawcze Apple pozwoliły osiągnąć znaczący przełom w dziedzinie sztucznej inteligencji (SI) poprzez opracowanie systemu, który jest w stanie kompleksowo rozumieć i postrzegać kontekst ekranowy. Znany jako ReALM (Reference Resolution As Language Modeling), ten system wykorzystuje potężne modele językowe do radzenia sobie z złożonym zadaniem rozstrzygania referencji, przekształcając je w problem czystego modelowania języka. Dzięki temu ReALM umożliwia SI zrozumienie niejednoznacznych odniesień do elementów na ekranie, a także sygnałów kontekstowych w rozmowie oraz informacji tła, co prowadzi do bardziej naturalnej interakcji z asystentami głosowymi.

Zrozumienie kontekstu, w tym odniesień, jest kluczowe dla optymalnego funkcjonowania asystentów konwersacyjnych. Dzięki temu przełomowi użytkownicy są w stanie wydawać zapytania dotyczące wszystkiego, co widzą na swoim ekranie, zapewniając prawdziwie bezdotykowe doświadczenie z asystentami głosowymi. ReALM wykazał znaczące wzrosty wydajności w porównaniu z istniejącymi metodami, nawet przewyższając GPT-4 w tym konkretnym zadaniu.

Jedną z istotnych innowacji ReALM jest zdolność do odtworzenia układu ekranu poprzez wykorzystanie sparsowanych elementów na ekranie i ich odpowiednich lokalizacji, generując reprezentację tekstową dokładnie oddającą układ wizualny. Poprzez dalsze dostrojenie modeli językowych specjalnie pod kątem rozstrzygania referencji, badacze skutecznie zademonstrowali efektywność ReALM w obsłudze referencji opartych na ekranie.

Tak, jak postęp w dziedzinie badań jest obiecujący, ważne jest uznanie ograniczeń polegania wyłącznie na zautomatyzowanym parsowaniu ekranów. Bardziej złożone odniesienia wizualne, takie jak rozróżnianie między wieloma obrazami, prawdopodobnie wymagałyby uwzględnienia technik wizji komputerowej i wielomodalnych.

Nadbiegająca konferencja Worldwide Developers Conference w czerwcu będzie okazją do zaprezentowania nowego duże…

Źródło: apple.com

FAQ: Najczęstsze pytania

The source of the article is from the blog mivalle.net.ar

Privacy policy
Contact