El Futuro de la Robótica Humanoid

La robótica humanoid ha estado experimentando un desarrollo lento durante casi dos décadas, pero una colaboración innovadora entre Figura AI y OpenAI le está dando un impulso muy necesario. El resultado es un video del robot humanoide más impresionante hasta la fecha, un cambio de juego en el campo.

En una actualización reciente por video, Figure AI presentó su robot Figure 01 equipado con un nuevo Modelo de Lenguaje Visual (VLM). La introducción de esta tecnología ha transformado por completo al robot, elevándolo de una máquina mundana a una maravilla futurista de pleno derecho con capacidades que se asemejan a las del icónico C-3PO.

En el video, el Figure 01 se encuentra confiadamente detrás de una mesa adornada con un plato, una manzana y una taza. A su izquierda hay un escurridor. Para demostrar sus nuevas capacidades, un compañero humano enfrenta al robot y pregunta con curiosidad: «Figure 01, ¿qué ves en este momento?».

En cuestión de segundos, Figure 01 responde con una voz que se asemeja notablemente a la humana, a pesar de no tener un rostro físico. Una luz animada sincronizada con su voz revela una descripción detallada de los objetos en la mesa e incluso distingue las características de la persona frente a él.

Esto solo es impresionante, pero hay más.

El humano luego pregunta: «Oye, ¿puedo comer algo?» Para asombro de todos, Figure 01 responde prontamente: «Claro», y con una precisión impecable, toma la manzana y se la entrega a la persona. La fluidez y destreza de sus movimientos dejan a los espectadores, como yo, maravillados.

Pero la verdadera revelación llega cuando el humano esparce deliberadamente algunos desechos arrugados frente a Figure 01. El humano luego cuestiona al robot: «¿Puedes explicar por qué hiciste lo que acabas de hacer mientras recoges esta basura?».

Sin dudarlo, Figure 01 ofrece una explicación mientras coloca el papel de nuevo en el cesto. Afirma: «Te di la manzana porque era el único elemento comestible que podía ofrecerte de la mesa».

Mi escepticismo inicial fue vencido por esta demostración. Esto fue más que solo un acto hábilmente orquestado. Fue un avance que desafiaba las expectativas.

El razonamiento de voz a voz se encuentra en el centro de las capacidades de Figure 01. El robot utiliza el modelo multimodal de vanguardia de OpenAI, VLM, que comprende tanto imágenes como textos. El sistema participa en una conversación completa por voz para elaborar sus respuestas, distinguiéndolo de GPT-4 de OpenAI, que se enfoca en indicaciones escritas.

Además, Figure AI ha sido pionero en la «manipulación bimanual de bajo nivel aprendida» en su creación. Al combinar calibraciones precisas de imagen en tiempo real con su red neuronal, el robot logra un control notable sobre sus movimientos, hasta a nivel de píxel. A una tasa de 10hz, se procesan imágenes a bordo, lo que resulta en una generación de 200hz de acciones de 24 DOF, que cubren poses de muñeca y ángulos de articulaciones de los dedos.

Figure AI insiste en que cada acción representada en el video es el resultado del aprendizaje del sistema, refutando cualquier afirmación de teleoperación o manipulación. Si bien sigue siendo difícil verificar completamente estas afirmaciones sin interacción personal e investigaciones independientes, las implicaciones son innegablemente profundas.

¿Podría esta ser la centésima ejecución perfecta de la rutina de Figure 01, lo que explica su fluidez? ¿O estamos realmente presenciando un logro sin precedentes? Ya sea un testimonio de una práctica incansable o un salto extraordinario en la robótica humanoid, la única respuesta adecuada es la de asombro.

Este logro notable no solo anticipa un futuro en el que los humanoides puedan comprender su entorno, comunicarse y responder como nunca antes, sino que también nos lleva a reflexionar sobre las infinitas posibilidades que se avecinan.

Preguntas FrecuentesThe source of the article is from the blog maltemoney.com.br

Preguntas Frecuentes
The source of the article is from the blog maltemoney.com.br