Pixart-δ: Progresa reāllaika attēlu ģenerēšana ar ControlNet-Transformer integrāciju

Kopsavilkums:
Teksta uz attēlu modeļu attīstība ir radījusi pieaugošu pieprasījumu pēc augstas kvalitātes vizuāliem attēliem. Tomēr šiem modeļiem bieži vien ir izaicinājumi apmācības efektivitātē un reāllaika piemērojamībā. Atbilde uz to ir nesen publicētā pētniecības rakstā iepazīstināt PIXART-δ, uzlaboto versiju, kas bez problēmām integrē Latekstošā konsistences modeļus (LCM) un ControlNet-Transformer PIXART-α jau esošajās struktūrās. Šī integrācija veicina paātrinātu attēlu ģenerēšanu un precīzu kontrolēšanu, atklājot jaunas iespējas reāllaika lietojumprogrammām.

PIXART-δ izmanto Latekstošās konsistences destilāciju (LCD) apmācībai, kas ir attīstīta versija konsistences destilācijas (CD) algoritma. ControlNet iekļaušana PIXART-δ ietver jaunu ControlNet-Transformer arhitektūru, kas īpaši izstrādāta Transformer-bāzētiem modeļiem, piemēram, PIXART-δ. ControlNet struktūra tiek selektīvi piemērota pirmajiem N bāzes blokiem Transformer, kas rezultē paaugstinātu kontrolējamību un veiktspēju.

Apmācības efektivitāte ir galvenais PIXART-δ izcelšanās moments, jo tā veiksmīgi veic destilāciju ierobežotā 32GB GPU atmiņā, atbalstot attēlu izšķirtspēju līdz 1024 × 1024 pikseļiem. Attiecībā uz inferēšanas ātrumu, PIXART-δ pārspēj salīdzināmus metodus, sasniedzot iespaidīgus rezultātus, izmantojot tikai četras soļus. Šī efektivitāte ir ievērojama uzlabojums salīdzinājumā ar iepriekšējo PIXART-α modeli un citiem standarta metodes.

ControlNet-Transformer arhitektūras efektivitāte tiek demonstrēta ar ablacijas pētījumu, atklājot ātrāku konverģenci un uzlabotu veiktspēju. Kopēto bloku (N) ietekme uz veiktspēju arī tiek analizēta, parādot optimālus rezultātus ar N = 1 lielumā lielākotā dažādos scenārijos.

Secīgi, PIXART-δ pārstāv nozīmīgu progresu reāllaika attēlu ģenerēšanā. Apvienojot paātrinātu paraugu ņemšanu ar Latent Consistency modeļiem un precīzu kontrolēšanu caur inovatīvo ControlNet-Transformer, šis modelis demonstē ātrāku paraugu ņemšanu un efektīvu augstas izšķirtspējas attēlu ģenerēšanu. Šie progresi atver jaunas iespējas attēlu ģenerēšanas reāllaika lietojumprogrammām.

The source of the article is from the blog radardovalemg.com

Privacy policy
Contact