EscherNet: Skalio View Sintezės modelis

Iš Dysono robotikos laboratorijos, Imperijos koledžo Londono ir Honkongo universiteto mokslininkai pristatė EscherNet, revoliucinį daugiavaizdį sąlygojamo difuzijos modelį, skirtą skaliamai vaizdo sintezei. Šis inovatyvus modelis leidžia perspektyvos iš naujo sugeneruoti vaizdus iš įvairių kampų, panašiai kaip žmogaus rega, ir siūlo išskirtinį bendrumą ir skaliamumą vaizdo sintezėje.

Tradiciški neuroninio 3D reprezentavimo mokymo metodai daugiausia remiasi tiksliais 3D geometrijos duomenimis, kas ribojo jų taikymą mažos skalės sintetiniams 3D duomenims. EscherNet, priešingai, įveikia šią apribojimą, mokindamas implicites 3D reprezentacijas su specialiai pritaikyta kamera, nurodydama kodavimą (CaPE). Tiksliai koduojant kameros padėtis kiekvienam vaizdui, EscherNet palengvina santykinių kameros transformacijų mokymą ir pasiekia aukštos kokybės rezultatų, efektyviai koduodamas aukšto lygio semantiką ir žemo lygio tekstūros detales iš atitinkamų vaizdų.

EscherNet integruoja 2D difuzijos modelį ir kameros padėties kodavimą, kad galėtų tvarkyti bet kokį vaizdų skaičių sintezės tikslais. Jis naudoja „Stable Diffusion v1.5” kaip pagrindą ir keičia savės dėmesio blokus, užtikrinant nuoseklų tikslų tarpusavio nuoseklumą keliuose vaizduose. Nesvarbu, kad EscherNet buvo išmokytas su fiksuotu atitinkamų vaizdų skaičiumi, jis gali generuoti daugiau nei 100 konsistentų tikslų vaizdų vienoje vaizdo plokštėje. Šio vienijimo tarp vieno ir daugiavaizdžio 3D rekonstrukcijos užduočių sulyginimas daro EscherNet universalų ir galingą įrankį įvairioms 3D regos sritims.

EscherNet parodo ypatingą našumą skirtingose užduotyse. Naujos vaizdo sintezės metu jis lenkia kitus 3D difuzijos modelius ir neuroninius atvaizdavimo metodus, pasiekdamas aukštos kokybės rezultatus su mažesniu atitinkamų vaizdų skaičiumi. Be to, EscherNet išsiskiria 3D generavime, pranokstant naujausius modelius tiksliai ir vizualiai patraukliai atkurdant 3D geometriją. Jo lankstumas leidžia sklandžiai integruoti į tekstą į 3D generavimo grandines, kuriant nuoseklias ir realistiškas rezultatus iš teksto užrašų.

Dėl EscherNet mokslininkai padarė didelę pažangą kuriant skaliamas neuronines architektūras 3D regai. Šio atradimo dėka atsiveria naujos galimybės kompiuterinėje regoje ir grafikoje, leidžiančios kūrybiškas taikymo sritis, pavyzdžiui, objekto manipuliavimas, navigacija ir scenų atvaizdavimas. Neuroninių architektūrų plėtojimo galimybės 3D regos srityje yra nepaprastos, o EscherNet yra šios įdomios plėtros priekyje.

Norėdami sužinoti daugiau apie EscherNet ir jo taikymus, galite peržiūrėti mokslinį straipsnį ir projektą. Už šią revoliucinę tyrimą dėkojame Dysono robotikos laboratorijos, Imperijos koledžo Londone ir Honkongo universiteto mokslininkams. Sekties naujausiais dirbtinio intelekto ir mašininio mokymo naujienomis mūsų Twitterio ir Google Naujienų puslapiuose. Ir nepamirškite prisijungti prie mūsų aktyvios bendruomenės, kurioje domisi mašininio mokymo entuziastai, Reddit, Facebook, Discord ir LinkedIn. Jei jums patinka mūsų darbas, būtinai užsisakykite mūsų naujienlaiškį, kad gautumėte reguliarias naujienas apie naujausius šios srities pokyčius.

🚀 LLMWare pristato SLIMs: maži specializuoti funkcijų iškvietimo modeliai daugiametėms automatizavimo žingsniams [Peržiūrėkite visus modelius]

EscherNet: Daugiavaizdės sąlygojamos difuzijos modelis skaliamai vaizdo sintezei

D.U.K.:

1. Kas yra EscherNet?
EscherNet yra revoliucinis daugiavaizdės sąlygojamos difuzijos modelis, skirtas skaliamai vaizdo sintezei. Jis leidžia rekonstruoti vaizdus iš įvairių kampų, imituojant žmogaus regą, ir siūlo bendrumą ir skaliamumą vaizdo sintezeje.

2. Kaip EscherNet įveikia tradicinių metodų apribojimus?
Tradiciški neuroninio 3D atvaizdavimo mokymo metodai daugiausia remiasi tikslia 3D geometrija, kuri riboja jų taikymą mažos skalės sintetiniams 3D duomenims. EscherNet įveikia šį apribojimą mokindamas slaptas 3D reprezentacijas naudojant specializuotą kamerų padėties kodavimą (CaPE).

3. Kaip EscherNet tvarko bet kokį vaizdų skaičių vaizdo sintezei?
EscherNet integruoja 2D difuzijos modelį ir kamerų padėties kodavimą, kad galėtų tvarkyti bet kokį vaizdų skaičių. Jis naudoja „Stable Diffusion v1.5” kaip pagrindą ir modifikuoja savęs dėmesio blokus, užtikrinant nuoseklų tikslų tarpusavio nuoseklumą keliuose vaizduose.

4. Kokiems uždaviniams EscherNet išsiskiria?
EscherNet parodo ypatingą našumą naujos vaizdo sintezės srityje, lenkiant kitus 3D difuzijos modelius ir neuroninius atvaizdavimo metodus. Jis taip pat išsiskiria 3D generavime, pranokstant naujausius modelius atkuriant tikslų ir vizualiai patrauklų 3D geometriją. Jį galima sklandžiai integruoti į tekstą į 3D generavimo grandines.

5. Kaip galiu sužinoti daugiau apie EscherNet?
Norėdami sužinoti daugiau apie EscherNet ir jo taikymus, galite peržiūrėti mokslinį straipsnį ir projektą. Šį svarbų tyrimą atliko Dysono robotikos laboratorijos, Imperijos koledžo Londono ir Honkongo universiteto mokslininkai.

Apibrėžimai:

– Tikslus 3D geometrija: Tai reiškia objekto ar scenos tikrąją 3D geometriją, gautą įvairiais būdais, pvz., skenuojant ar modeliuojant.

– Kamerų padėties kodavimas (CaPE): Tai speciali technika, naudojama EscherNet, tiksliai koduojanti kamerų padėtis kiekvienam vaizdui, palengvinanti santykinį kameros transformacijų mokymą.

– Vaizdo sintezė: Vaizdo sintezė apima naujų vaizdų generavimą iš esamų vaizdų ar atitinkamų paveikslėlių.

– Slaptos 3D reprezentacijos: Slaptos reprezentacijos atitinka 3D geometriją be aiškių apibrėžimų paviršių ar ribų.

– Neuroninis atvaizdavimas: Neuroninis atvaizdavimas apima neuroninių tinklų naudojimą vaizdų ar vaizdų generavimui scenei ar objektui.

Susijusios nuorodos:
– Dysono robotikos laboratorija
– Imperijos koledžas Londonas
– Honkongo universitetas

The source of the article is from the blog portaldoriograndense.com