Den Framtida Uppkomsten av Robotteknik: En Ny Synvinkel

I takt med den senaste utvecklingen har humanoid robotteknik stagnerat i nästan två decennier, men ett banbrytande samarbete mellan Figur AI och OpenAI ger den nu en välbehövlig skjuts. Resultatet? Den mest imponerande humanoidrobotvideon hittills – en spelväxlare inom området.

I en nylig videouppdatering visade Figur AI upp sin Figur 01-robot som är utrustad med en ny visuell språkmodell (VLM). Införandet av denna teknologi har fullständigt omvandlat roboten, vilket har lyft den från en tråkig maskin till ett fullständigt futuristiskt under med förmågor som påminner om de ikoniska C-3PO.

I videon står Figur 01 självsäkert bakom ett bord prytt med en tallrik, ett äpple och en kopp. Till vänster är ett durkslag placerat. För att visa sina nyfunna förmågor står en mänsklig följeslagare inför roboten och frågar nyfiket, ”Figur 01, vad ser du just nu?”

Inom några sekunder svarar Figur 01 med en röst som på ett märkvärdigt sätt liknar en människas, trots att den saknar ett fysiskt ansikte. Ett animerat ljus synkroniserat med dess röst avslöjar en detaljerad beskrivning av sakerna på bordet och kan till och med skilja personens drag framför den.

Detta i sig är imponerande, men det finns mer.

Därefter frågar människan, ”Hej, kan jag få något att äta?” Till allas förvåning svarar Figur 01 omedelbart, ”Absolut,” och med felfri precision plockar upp äpplet och räcker det till individen. Rörelsens flyt och fingertoppskänsla lämnar åskådare, som mig själv, i förundran.

Men den sanna uppenbarelsen kommer när människan medvetet sprider något krullande skräp framför Figur 01. Människan frågar sedan roboten, ”Kan du förklara varför du gjorde det du just gjorde medan du plockar upp detta skräp?”

Utahesiterat erbjuder Figur 01 en förklaring medan den lägger papperet tillbaka i papperskorgen. Den konstaterar: ”Jag gav dig äpplet eftersom det är den enda ätbara produkten jag kunde ge dig från bordet.”

Min initiala skepsis besegrades av denna demonstration. Detta var mer än bara en smart iscensättning. Det här var en framsteg som trotsade förväntningarna.

Tal-till-tal-resonemang ligger till grund för Figur 01:s förmågor. Roboten använder OpenAI:s toppmoderna multimodella modell, VLM, som förstår både bilder och texter. Systemet engagerar sig i en hel röstkonversation för att utforma sina svar, vilket skiljer det från OpenAI:s GPT-4, som fokuserar på skriftliga instruktioner.

Dessutom har Figur AI banat väg för ”lärd bi-manuell manipulation på låg nivå” i sin skapelse. Genom att kombinera precisa bildkalibreringar i realtid med sitt neurala nätverk uppnår roboten enastående kontroll över sina rörelser – ned till en pixelnivå. I en hastighet av 10hz bearbetas ombord befintliga bilder, vilket resulterar i en 200hz-generering av 24-DOF-aktioner, som omfattar handledsposter och fingerledsvinklar.

Figur AI hävdar envist att varje åtgärd som visas i videon är resultatet av systeminlärning och avvisar alla påståenden om fjärrstyrning eller dockteater. Även om det fortfarande är utmanande att helt verifiera dessa påståenden utan personlig interaktion och oberoende undersökningar, är konsekvenserna otvetydigt djupa.

Kunde detta vara den hundrade sömlösa utförandet av Figur 01:s rutin, vilket förklarar dess flytande rörelse? Eller ser vi verkligen en enastående prestation? Oavsett om det är ett vittnesbörd om outtröttlig träning eller ett extraordinärt kliv framåt inom humanoidrobotik är det enda lämpliga svaret ett av förundran.

Denna anmärkningsvärda prestation förutspår inte bara en framtid där humanoider kan förstå sin omgivning, kommunicera och svara som aldrig förr, utan uppmanar oss även att fundera över de oändliga möjligheterna som ligger framför oss.

Vanliga FrågorThe source of the article is from the blog reporterosdelsur.com.mx

Vanliga Frågor
The source of the article is from the blog reporterosdelsur.com.mx