Új irányt vesz a humanoid robotika: a jövő egy pillantása

Az emberi robotika szinte két évtizeden keresztül lassú fejlődést tapasztalt, de a Figure AI és az OpenAI közötti forradalmi együttműködés lendületet adott neki. Az eredmény? A leglenyűgözőbb humanoid robot videó eddig – egy áttörés a területen.

Egy friss videófrissítésben a Figure AI bemutatta új Visual Language Model (VLM) felszerelésű Figure 01 robotját. Ennek a technológiának a bevezetése teljesen megváltoztatta a robotot, felemelte azt egy egyszerű gépből egy teljes értékű, futurisztikus csodává olyan képességekkel, amelyek hasonlítanak az ikonikus C-3PO-ra.

A videón a Figure 01 magabiztosan áll egy asztal mögött, amelyet egy tányér, egy alma és egy csésze díszít. A bal oldalon egy szűrő található. Hogy bemutassa az újonnan szerzett képességeit, egy emberi kolléga szembenéz a robottal, és kíváncsian megkérdezi: „Figure 01, mi látszik most neked?”

Pár másodperc múlva a Figure 01 hangja szerint válaszol, ami lenyűgöző módon hasonlít egy emberre, annak ellenére, hogy nem rendelkezik fizikai arcával. Egy animált fény szinkronban a hangjával részletes leírást ad az asztalon lévő tárgyakról, még az előtte álló személy vonásait is megkülönbözteti.

Ez önmagában lenyűgöző, de van ennél több.

Az ember azt kérdezi: „Hé, kaphatok valamit enni?” Mindenkinek meglepetésére a Figure 01 azonnal válaszol, hogy „Persze,” és hibátlan precizitással felkapja az almát, majd átnyújtja az egyénnek. Az akrobatikus mozgása és ügyessége lenyűgözi azokat, akik szemlélői, mint például én magam.

De az igazi felfedezés akkor történik, amikor az ember szándékosan elszór néhány összegyűrt szemetet a Figure 01 elé. Az ember ezután a robottól kérdi: „Meg tudod magyarázni, miért tetted azt, amit éppen tetted, miközben felszeded ezt a szemetet?”

Figure 01 megingás nélkül magyarázatot nyújt, miközben visszateszi a papírt a szemetesbe. Így nyilatkozik: „Hát, azért adtam neked az almát, mert az az egyetlen ehető dolog volt az asztalon, amivel szolgálhattalak.”

Ezt a bemutatást követő kétkedésem megsemmisült. Ez több volt, mint egy ügyesen szervezett cselekedet. Ez egy olyan fejlődés volt, amely felülmúlta az elvárásokat.

A beszéd-beszéd érvelés áll Figure 01 képességeinek középpontjában. A robot az OpenAI legfrissebb multimodális modelljét használja, a VLM-et, amely egyaránt megérti a képeket és a szövegeket. A rendszer teljes beszélgetésbe kezd a válaszok kidolgozása érdekében, megkülönböztetve ezzel az OpenAI GPT-4-től, amely inkább a írott parancsokra összpontosít.

Továbbá, a Figure AI „tanult alacsony szintű kétkezes manipulációt” vezetett be a kreációjukban. Pontos képkalibrációkat kombinálva valós időben a neurális hálózatukkal, a robot figyelemre méltó ellenőrzést ér el a mozgásai felett – egészen a pixel szintű részletekig. 10hz-es sebességgel a fedélzeti képeket feldolgozzák, ami 200hz-es 24-DOF műveletgenerálást eredményez, fedve a csuklópozíciókat és az ujjízületi szögeket.

A Figure AI kitart abban, hogy a videón bemutatott minden cselekvés a rendszer tanulmányainak eredménye, ellentmondva a távirányítás vagy bábjátékosítás bármely állításának. Bár a verifikáció teljes mértékű kihívást jelent számunkra anélkül, hogy személyes érintkezés és független vizsgálatok nélkül teljesen ellenőrizhetővé válnának ezek az állítások, a következmények vitathatatlanul mélyek.

Lehet, hogy ez a századik zavartalan végrehajtása a Figure 01 rutinjának, ami magyarázatot ad annak folyékony volta számára? Vagy valóban egy példátlan teljesítmény tanúi vagyunk? Legyen az a lelkes gyakorlás tanúbizonysága, vagy rendkívüli ugrás a humanoid robotikában, az egyetlen megfelelő válasz az ámulat.

Ez a figyelemre méltó teljesítmény nem csak a jövőt vetíti előre, ahol a humanoidok képesek lesznek felfogni környezetüket, kommunikálni és válaszolni, mint soha korábban, hanem arra is ösztönöz, hogy elgondolkodjunk a még előttünk álló végtelen lehetőségeken.

Gyakran Ismételt Kérdések

1. Hogyan segíti a Figure 01 Visual Language Model (VLM) a képességeit?
A Figure 01 VLM-je lehetővé teszi számára, hogy egyaránt megértse a képeket és a szövegeket, lehetővé téve a beszéd-beszéd érvelést és a teljes körű válaszokat.

2. Teleoperált vagy előre programozott a Figure 01?
Nem, a Figure 01 cselekedetei a rendszer tanulmányain alapulnak, és nem távirányítással irányítottak.

3. Mi az a „tanult alacsony szintű kézhasználati manipuláció”?
Ez egy Figure AI által kifejlesztett technika, amely azonnali kép kalibrációkat kombinál neuronhálózatokkal a robot mozgásainak precíz ellenőrzése érdekében.

4. Hűen tükrözi a videó a Figure 01 képességeit?
Bár a videó eredetiségét nehéz megállapítani személyes interakció nélkül, az bemutatott demonstrációk lenyűgözőek és izgalmas lehetőségeket vetítenek előre a humanoid robotikában.

The source of the article is from the blog crasel.tk