EscherNet: Prijelom u skalabilnoj sintezi pogleda

Istraživači s Dyson Robotics Lab, Imperial College London i Sveučilišta u Hong Kongu su predstavili EscherNet, revolucionarni model difuzije uvjetovan višestrukim pogledima za skalabilnu sintezu pogleda. Ovaj inovativni model omogućava prerenderiranje scene iz različitih perspektiva, slično ljudskom vidu, i nudi izvanrednu općenitost i skalabilnost u sintezi pogleda.

Tradicijske metode u učenju neuronske 3D reprezentacije oslanjale su se na točnu geometriju 3D podatka, što je ograničavalo njihovu primjenu na manjim sintetičkim 3D podacima. EscherNet, s druge strane, prevladava ovu ograničenost učenjem implicitnih 3D reprezentacija uz pomoć specijaliziranog kodiranja pozicije kamere (CaPE). Točnim kodiranjem položaja kamere za svaki pogled, EscherNet olakšava učenje relativne transformacije kamere i postiže visokokvalitetne rezultate kodiranja visokih semantičkih razina i detalja teksture na referentnim pogledima.

EscherNet integrira 2D model difuzije i kodiranje pozicije kamere kako bi se nosio s proizvoljnim brojem pogleda za sintezu pogleda. Koristi Stable Diffusion v1.5 kao svoju osnovu i modificira blokove samo-pažnje kako bi osigurao dosljednost cilja do cilja između više pogleda. Unatoč obuci s fiksnim brojem referentnih pogleda, EscherNet može generirati preko 100 dosljednih ciljnih pogleda na jednom GPU-u. Ova unifikacija zasebnih i višeslikovnih zadataka rekonstrukcije 3D čini EscherNet svestranim i moćnim alatom za razne primjene u 3D viziji.

EscherNet pokazuje izvanrednu izvedbu u raznim zadacima. U sintezi novih pogleda, nadmašuje druge modele difuzije 3D i neuronske metode prikaza, postižući visokokvalitetne rezultate s manje referentnih pogleda. Dodatno, EscherNet se ističe u generiranju 3D modela, nadmašujući modele najnovije tehnologije u rekonstrukciji točne i vizualno privlačne 3D geometrije. Njegova fleksibilnost omogućava besprijekorno integriranje u pipeline-ove generiranja teksta u 3D, pri čemu se dobivaju dosljedni i realistični rezultati iz tekstualnih uputa.

S EscherNetom, istraživači su postigli znatan napredak u skalabilnim neuronskim arhitekturama za 3D viziju. Ovaj proboj otvara nove mogućnosti u računalnom vidu i grafici, omogućavajući kreativne primjene poput manipulacije objektima, navigacije i prerenderiranja scena. Potencijal za daljnji napredak u skalabilnim neuronskim arhitekturama za 3D viziju je ogroman, a EscherNet je na čelu ovog uzbudljivog razvoja.

Za više informacija o EscherNetu i njegovim primjenama, možete provjeriti istraživački rad i projekt. Zahvaljujemo istraživačima s Dyson Robotics Lab, Imperial College London i Sveučilišta u Hong Kongu na ovom revolucionarnom istraživanju. Budite u tijeku s najnovijim razvojima u AI i strojnom učenju tako da nas pratite na Twitteru i Google News. I ne zaboravite se pridružiti našoj rastućoj zajednici entuzijasta za strojno učenje na Redditu, Facebooku, Discordu i LinkedInu. Ako vam se sviđa naš rad, svakako se pretplatite na naš newsletter za redovite ažuriranja o najnovijim napretcima u polju.

🚀 LLMWare predstavlja SLIMs: Male posebne modele za pozivanje funkcija za višekoraknu automatizaciju [Pogledajte sve modele]

EscherNet: Višestruki uvjetovani model difuzije za skalabilnu sintezu pogleda

The source of the article is from the blog klikeri.rs

Privacy policy
Contact