Multimodal ramme styrker robotbeslutninger

MIT’s Improbable AI Lab har udviklet en ny multimodal ramme kaldet Kompositionelle Foundation Modeller til Hierarkisk Planlægning (HiP), der hjælper robotter med at lave detaljerede og gennemførlige planer. HiP adskiller sig fra tidligere modeller ved at bruge tre forskellige foundation modeller, der er trænet på forskellige data modaliteter, for at fange forskellige aspekter af beslutningsprocessen. Denne tilgang eliminerer behovet for dyre parrede data og gør ræsonnementsprocessen mere gennemsigtig. Forskningsholdet mener, at HiP kan muliggøre, at robotter udfører huslige pligter samt komplekse opgaver inden for konstruktion og produktion. Systemet overgik sammenlignelige rammer i tests ved at tilpasse sine planer baseret på ny information og præcist fuldføre manipulationopgaver. HiP’s hierarki involverer en stor sprogmodel til opgaveplanlægning, en video diffusion model til at forstå miljøet og en egocentrisk aktionsmodel til at bestemme udførelsen baseret på omgivelserne.

Robotter har altid stået over for udfordringer i planlægning og udførelse af opgaver, som mennesker finder intuitive. Mens mennesker ubesværet kan udføre trinvise pligter, kræver robotter en kompleks plan, der involverer detaljerede retningslinjer. MIT’s Improbable AI Lab har løst dette problem med deres innovative multimodale ramme, HiP.

Ved at udnytte tre forskellige foundation modeller forbedrer HiP robotbeslutninger og planlægning. Modsætningsvis til tidligere modeller, som er afhængige af parrede data, fanger HiP’s foundation modeller forskellige aspekter af beslutningsprocessen og arbejder sammen om at træffe beslutninger. Dette eliminerer behovet for svært opnåelige parrede data og gør ræsonnementsprocessen mere gennemsigtig.

Mulighederne for HiP er enorme. Forskningsholdet forestiller sig, at robotter kan bruge denne ramme til at udføre huslige pligter såsom at lægge bøger på plads eller sætte tallerkener i opvaskemaskinen. Derudover kunne HiP assistere med komplekse opgaver, såsom konstruktion og produktion ved at stable og placere forskellige materialer i specifikke sekvenser.

I tests udførte HiP bedre end sammenlignelige rammer ved at tilpasse sine planer til ny information og præcist fuldføre manipulationopgaver. For eksempel lykkedes det i en test robotten at stable blokke med forskellige farver og tilpasse sine planer for at imødekomme manglende farver. I en anden test arrangerede systemet objekter og ignorerede unødvendige genstande og tilpassede sine planer til at håndtere beskidte objekter.

HiP fungerer som en hierarki, hvor hver komponent er forhåndstrænet på forskellige datasæt. En stor sprogmodel starter processen ved at opdele opgaven i delmål, mens en video diffusion model indsamler fysisk information om miljøet. Til sidst bestemmer en egocentrisk aktionsmodel de passende handlinger baseret på robottens omgivelser.

Med HiP kan robotter nu stole på en multimodal tilgang, der integrerer sproglig, fysisk og miljømæssig intelligens. Denne nye ramme åbner muligheder for forbedret robotbeslutningstagning og succesfuld udførelse af komplekse opgaver, hvilket gør robotter mere effektive og kapable i forskellige indstillinger.

The source of the article is from the blog publicsectortravel.org.uk