Die Zukunft von humanoider Robotik – Ein Durchbruch in der Technologie

Die Welt der humanoiden Robotik hat in den letzten Jahren nur langsame Fortschritte gemacht. Doch dank einer bahnbrechenden Kooperation zwischen Figure AI und OpenAI erfährt sie nun einen dringend benötigten Schub, der sie in eine neue Ära führt.

In einem kürzlich veröffentlichten Video präsentierte Figure AI ihren Figure 01 Roboter, der mit einem neuen Visual Language Model (VLM) ausgestattet ist. Diese Technologie hat den Roboter komplett verändert und ihn von einer gewöhnlichen Maschine zu einem futuristischen Wunder mit Fähigkeiten wie die des ikonischen C-3PO erhoben.

Im Video steht Figure 01 selbstbewusst hinter einem Tisch mit einem Teller, einem Apfel und einer Tasse. Zur Demonstration seiner neuen Fähigkeiten stellt sich ein Mensch vor den Roboter und fragt neugierig: „Figure 01, was siehst du gerade?“

In Sekundenschnelle antwortet Figure 01 mit einer Stimme, die erstaunlich menschenähnlich klingt, obwohl der Roboter kein physisches Gesicht hat. Ein animiertes Licht, synchronisiert mit seiner Stimme, zeigt eine detaillierte Beschreibung der Gegenstände auf dem Tisch und erkennt sogar die Merkmale der Person vor ihm.

Dies allein ist beeindruckend, aber es gibt noch mehr.

Der Mensch fragt dann: „Kann ich etwas zu essen haben?“ Zur allgemeinen Erstaunen antwortet Figure 01 prompt: „Natürlich,“ und hebt mit makelloser Präzision einen Apfel auf und reicht ihn der Person. Die Flüssigkeit und Geschicklichkeit seiner Bewegungen lassen Beobachter wie mich in Ehrfurcht erstarren.

Doch die eigentliche Offenbarung kommt, als der Mensch absichtlich einige zerknitterte Abfälle vor Figure 01 wirft. Er fragt dann den Roboter: „Kannst du erklären, warum du getan hast, was du gerade getan hast, während du diesen Müll aufhebst?“

Ohne zu zögern, gibt Figure 01 eine Erklärung ab, während es das Papier zurück in den Mülleimer legt. Es erklärt: „Ich habe dir den Apfel gegeben, weil es der einzige essbare Gegenstand war, den ich dir vom Tisch anbieten konnte.“

Meine anfängliche Skepsis wurde durch diese Vorführung besiegt. Dies war mehr als nur eine clever inszenierte Handlung. Dies war ein Fortschritt, der die Erwartungen übertraf.

Die Rede-zu-Rede-Begründung steht im Mittelpunkt der Fähigkeiten von Figure 01. Der Roboter nutzt das fortschrittliche multimodale Modell VLM von OpenAI, das sowohl Bilder als auch Texte versteht. Das System führt ein komplettes Sprachgespräch, um seine Antworten zu formulieren, was es von GPT-4 von OpenAI unterscheidet, das sich auf schriftliche Anweisungen konzentriert.

Darüber hinaus hat Figure AI in ihrer Kreation die „gelernte niederstufige bimanuelle Manipulation“ pioniert. Durch die Kombination präziser Bildkalibrierungen in Echtzeit mit ihrem neuronalen Netzwerk erreicht der Roboter bemerkenswerte Kontrolle über seine Bewegungen – bis auf Pixelniveau. Mit einer Rate von 10 Hz werden Bordbilder verarbeitet, was zu einer 200 Hz-Generierung von 24-DOF-Aktionen führt, die Handgelenkposen und Finger-Gelenkwinkel abdecken.

Figure AI betont, dass jede Handlung im Video das Ergebnis von Systemlernen ist, und weist alle Behauptungen von Fernsteuerung oder Puppenspiel zurück. Obwohl es herausfordernd bleibt, diese Behauptungen ohne persönliche Interaktion und unabhängige Untersuchungen vollständig zu überprüfen, sind die Auswirkungen unbestreitbar tiefgreifend.

Könnte dies die hundertste reibungslose Ausführung der Routine von Figure 01 sein, was seine Flüssigkeit erklären würde? Oder erleben wir tatsächlich eine beispiellose Leistung? Ob es nun ein Zeugnis von unermüdlicher Übung oder ein außergewöhnlicher Schritt nach vorne in der humanoiden Robotik ist, die einzige angemessene Reaktion ist Staunen.

Dieser bemerkenswerte Erfolg lässt nicht nur eine Zukunft erahnen, in der Humanoiden ihre Umgebung verstehen, kommunizieren und reagieren können wie nie zuvor, sondern regt uns auch an, über die unendlichen Möglichkeiten nachzudenken, die uns bevorstehen.

Häufig gestellte Fragen

The source of the article is from the blog crasel.tk

Privacy policy
Contact