Nový Achievement v oblasti Humanoidné Robotiky: Budúcnosť na Dosah

Ľudstvo sledovalo postup vo vývoji humanoidnej robotiky takmer dve desaťročia, no revolučné partnerstvo medzi spoločnosťou Figure AI a OpenAI teraz prináša potrebný impulz. Výsledkom je najúžasnejšie video s humanoidným robotom doposiaľ – zmena pravidiel v odvetví.

Vo svojom nedávnom video aktualizácii Figure AI predstavili svojho robota Figures 01 vybaveného novým modelom vizuálneho jazyka (VLM). Zavedenie tejto technológie úplne premenilo robota, vystupňujúc ho z obyčajnej mašiny na plnohodnotné futuristické čudo s schopnosťami pripomínajúcmi ikonického C-3PO.

V tomto videu Figure 01 isto stojí za stolom zdobeným tanierom, jablkom a šálkou. Na ľavej strane je odkvapkávač. Aby demonštroval svoje nové schopnosti, ľudský partner sa pozera na robota a zvedavo sa pýta: „Figure 01, čo práve vidíš?“

Figure 01 v priebehu sekúnd zareaguje hlasom, ktorý úžasne pripomína ľudský, napriek tomu, že nemá fyzickú tvár. Animované svetlo synchronizované s jeho hlasom ukazuje detailný popis predmetov na stole a dokonca rozpoznáva znaky človeka pred ním.

To samé je samozrejme úžasné, no je tu ešte viac.

Ľudský partner potom otáza: „Hej, môžem niečo zjesť?“ K veľkému úžasu všetkých Figure 01 promptne odpovedá: „Samozrejme,“ a s bezchybnou presnosťou zdvihne jablko a podá ho jednotlivcovi. Plynulosť a obratnosť jeho pohybov zanecháva pozorovateľov, ako napríklad mňa, v úžase.

Skutočné zjavenie však prichádza, keď ľudský partner zámerne rozhadzuje trochu roztrhaného odpadu pred Figure 01. Potom sa opýta robota: „Môžeš vysvetliť, prečo si práve urobil to, čo si urobil, zatiaľ čo zbieraš ten odpad?“

Bez váhania Figure 01 ponúka vysvetlenie pri tom, ako vkladá papier späť do koša. Hovorí: „Takže som ti dal jablko, pretože je to jediná jedlá vec, ktorú ti môžem ponúknuť zo stola.“

Týmto demonštráciám som definitívne prekonal počiatočnú skepsu. To bolo viac než len šikovne zinscenovaný čin. Bola to nová úroveň, ktorá prevrátila očakávania naruby.

Rezonancia hlasov na hlas bytosti hraje kľúčovú úlohu vo schopnostiach Figure 01. Robot využíva špičkový multimodálny model VLM od spoločnosti OpenAI, ktorý chápe a obrazové a textové vstupy. Systém vedie kompletnú hlasovú konverzáciu na tvorbu svojich odpovedí, čím sa odlišuje od OpenAI GPT-4, ktorý sa zameriava na písomné podnety.

Okrem toho, Figure AI vytvorili „naučenú nízkoúrovňovú bimanuálnu manipuláciu“ vo svojej kreácii. Spájaním presných obrazových kalibrácií v reálnom čase so svojou neurónovou sieťou dosahuje robot pozoruhodnú kontrolu nad svojimi pohybmi – až na úroveň pixelov. Obrazové podnety sa spracúvajú rýchlosťou 10hz, čo vedie k vytvoreniu 200hz generácie 24-DOF akcií, vrátane polôh zápästia a kútov ohybu prstov.

Figure AI dôrazne tvrdí, že každá činnosť zobrazená vo videu je výsledkom učenia systému a odmietajú akékoľvek tvrdenia o teleoperácii alebo hraní na bábku. Hoci zostáva náročné úplne overiť tieto tvrdenia bez osobného kontaktu a nezávislých šetrení, dôsledky sú nepochybne hlboké.

Môže ísť o stonásobné bezchybné vykonanie rutiny Figure 01, čo vysvetľuje jeho plynulosť? Alebo naozaj svedčíme o bezprecedentnom výkone? Bez ohľadu na to, či ide o osvedčený dôkaz neúnavného cvičenia alebo o mimoriadny skok vpred v humanoidnej robotike, jediná správna odpoveď je úžas.

Tento pozoruhodný úspech nielenže predznamenáva budúcnosť, kde humanoidy dokážu porozumieť svojmu okoliu, komunikovať a reagovať ako nikdy predtým, ale tiež nás núti zamýšľať sa nad nekonečnými možnosťami, ktoré sú ešte pred nami.

Často kladené otázky

1. Ako zlepšuje model vizuálneho jazyka (VLM) schopnosti Figure 01?
Model VLM Figure 01 mu umožňuje porozumieť obrázky aj text, čo umožňuje hlasové reakcie a komplexné odpovede.

2. Je Figure 01 ovládaný teleoperáciou alebo predprogramovaný?
Nie, akcie Figure 01 sú založené na systémovom učení a nie sú ovládané teleoperáciou.

3. Čo je „naučená nízkoúrovňová bimanuálna manipulácia“?
Je to technika vyvinutá spoločnosťou Figure AI, ktorá kombinuje presné obrazové kalibrácie s neurónovými sieťami, aby dosiahla presnú kontrolu nad pohybmi robota.

4. Zobrazuje video schopnosti Figure 01 presne?
Hoci je ťažké overiť autenticitu videa bez osobného kontaktu, demonštrácie sú fascinujúce a otvárajú vzrušujúce možnosti pre humanoidnú robotiku.

The source of the article is from the blog elblog.pl