Tulevaisuuden humanoidirobotiikkaa: Edistyksellinen kumppanuus avaa uusia mahdollisuuksia

Ihmismäisen robotiikan kehitys on ollut melko hidasta lähes kaksi vuosikymmentä, mutta Figure AI:n ja OpenAI:n välinen mullistava yhteistyö antaa sille kipeästi kaivattua sysäystä. Tuloksena? Tähänastisesti vaikuttavin humanoidirobottivideo – pelin vaihtaja alalla.

Tuoreessa videopäivityksessä Figure AI esitteli Figure 01 -robotinsa, joka on varustettu uudella visuaalisella kielimallilla (VLM). Tämän teknologian käyttöönotto on muuttanut robotin täysin, nostattaen sen arkisesta koneesta täysivaltaiseksi, futuristiseksi ihmeeksi, jolla on kykyjä muistuttavia piirteitä ikonisesta C-3PO:sta.

Videolla Figure 01 seisoo itsevarmasti pöydän takana, joka on koristeltu lautasella, omenalla ja kupilla. Vasemmalla puolella on valulautanen. Osoittaakseen uudet kykynsä ihmismäinen vastakappale kasvotusten robotin kanssa tiedustelee uteliaana: ”Figure 01, mitä näet juuri nyt?”

Muutaman sekunnin kuluttua Figure 01 vastaa ihmismäisenä kuulostavalla äänellä, vaikka sillä ei ole fyysistä kasvoja. Sen äänen synkronointiin animoitu valo paljastaa yksityiskohtaisen kuvauksen pöydällä olevista esineistä ja jopa erottaa vastassaan olevan henkilön piirteet.

Tämä yksistään on vaikuttavaa, mutta siinä ei vielä kaikki.

Ihminen tiedustelee sitten: ”Hei, voinko saada jotain syötävää?” Kaikkien hämmästykseksi Figure 01 vastaa välittömästi: ”Tottakai,” ja virheettömällä tarkkuudella poimii omenan ja ojentaa sen henkilölle. Sen liikkeiden sulavuus ja taituruus jättävät paikallaolijat, kuten minut, sanattomiksi.

Mutta todellinen paljastus tulee, kun ihminen tarkoituksella levittää roskia Figure 01:n eteen. Ihminen sitten kysyy robotilta: ”Voitko selittää, miksi teit juuri niin, kun keräät tämän roskan?”

Epäröimättä Figure 01 tarjoaa selityksen asettaessaan paperin takaisin roskakoriin. Se toteaa: ”Joten, annoin sinulle omenan, koska se on ainoa syötävä asia, jonka voin tarjota sinulle pöydältä.”

Tämä esitys kukisti alkuperäisen skeptisyyteni. Tämä ei ollut pelkkä ovelasti koostettu näytös. Tämä oli odotuksia uhmaava edistysaskel.

Puheesta puheeseen perustuva päättely on Figure 01:n kykyjen ytimessä. Robotti hyödyntää OpenAI:n huippuluokan multimodaalista mallia VLM, joka ymmärtää sekä kuvia että tekstiä. Järjestelmä käy läpi koko äänikeskustelun laatiaakseen vastauksensa, erottaen sen OpenAI:n GPT-4:stä, joka keskittyy kirjoitettuihin annoksiin.

Lisäksi Figure AI on pioneeri ”opitussa alhaisen tason kaksikätisessä manipulaatiossa” luomisessaan. Yhdistämällä tarkat kuvakalibroinnit reaaliajassa neuroverkkoonsa robotti saavuttaa huomattavan hallinnan liikkeissään – aina pikselitasolle asti. 10 hertsin taajuudella ruudulla olevia kuvia käsitellään, mikä johtaa 200 hertsin 24-DOF-toimien generointiin, kattamaan ranteen asennot ja sormien nivelkulmat.

Figure AI väittää, että jokainen videolla esitetty toiminto on järjestelmän oppimisen tulos, kumoten mahdolliset väitteet etäohjauksesta tai nuketuksesta. Vaikka näitä väitteitä on haastavaa varmistaa täysin ilman henkilökohtaista vuorovaikutusta ja itsenäisiä tiedusteluja, niiden vaikutukset ovat kiistatta syvällisiä.

Voisiko tämä olla sataste perehtyneen suoritus Figure 01:n rutiineissa, selittäen sen sujuvuuden? Vai olemmeko todella todistamassa ennennäkemätöntä saavutusta? Olkoon syy sitten loppumattomalle harjoitukselle tai poikkeukselliselle harppaukselle humanoidirobotiikassa, ainoa asianmukainen vastaus on hämmästys.

Tämä merkittävä saavutus ei ainoastaan teesaa tulevaisuutta, jossa humanoidit voivat ymmärtää ympäristönsä, kommunikoida ja reagoida aivan uudella tavalla, vaan myös saa meidät pohtimaan edessämme lepääviä lukemattomia mahdollisuuksia.

### Usein Kysytyt Kysymykset

1. Miten Figure 01:n Visual Language Model (VLM) parantaa sen kykyjä?
Figure 01:n VLM mahdollistaa sen ymmärtää sekä kuvia että tekstiä, mahdollistaen puheesta puheeseen päättelyn ja kattavat vastaukset.

2. Onko Figure 01 etäohjattu vai esiohjelmoitu?
Ei, Figure 01:n toiminnot perustuvat järjestelmän oppimiseen eivätkä ne ole etäohjattuja.

3. Mitä tarkoittaa ”opittu alhainen tason kaksikätinen manipulaatio”?
Se on Figure AI:n kehittämä tekniikka, joka yhdistää tarkat kuvakalibroinnit neuroverkkojen avulla saavuttaakseen tarkan hallinnan robotin liikkeissä.

4. Esittääkö video Figure 01:n kyvyt tarkasti?
Vaikka videon aitoutta on vaikea varmistaa ilman henkilökohtaista vuorovaikutusta, esitetyt demonstaraatiot ovat mukaansatempaavia ja herättävät jännittäviä mahdollisuuksia humanoidirobotiikalle.

The source of the article is from the blog macnifico.pt