PIXART-δ: Avansarea Generării de Imagini în Timp Real cu Integrarea ControlNet-Transformer

Rezumat:
Dezvoltarea modelelor de conversie a textului în imagini a întâmpinat o creștere în cererea de vizualuri de înaltă calitate. Cu toate acestea, aceste modele se confruntă adesea cu provocări în eficiența de antrenament și aplicabilitatea în timp real. În răspuns la acestea, un studiu recent de cercetare introduce PIXART-δ, o iterație avansată care integrează cu ușurință Modelele de Consistență Latentă (LCM) și ControlNet-Transformer în cadrul existent al framework-ului PIXART-α. Această integrare duce la accelerarea generării de imagini și control precis, deschizând noi posibilități pentru aplicațiile în timp real.

PIXART-δ se bazează pe Tehnica de Distilare a Consistenței Latente (LCD) pentru antrenament, care este o versiune rafinată a algoritmului de distilare a consistenței (CD). Incorporarea ControlNet în PIXART-δ implică o arhitectură inovatoare ControlNet-Transformer, special concepută pentru modele bazate pe Transformer, precum PIXART-δ. Structura ControlNet este aplicată selectiv la primele N blocuri de bază ale Transformer-ului, rezultând o controlabilitate și performanță îmbunătățite.

Eficiența de antrenament este un punct central al PIXART-δ, deoarece trece cu succes prin distilare într-o restricție de memorie GPU de 32 GB, susținând rezoluții de imagine de până la 1024 × 1024. În ceea ce privește viteza de inferență, PIXART-δ depășește metodele comparabile, obținând rezultate impresionante cu doar patru pași. Această eficiență reprezintă o îmbunătățire semnificativă față de modelul anterior PIXART-α și alte metode standard.

Eficiența arhitecturii ControlNet-Transformer este demonstrată printr-un studiu de ablație, dezvăluind o convergență mai rapidă și o performanță îmbunătățită. Impactul numărului de blocuri copiate (N) asupra performanței este, de asemenea, analizat, prezentând rezultate optime cu N = 1 în majoritatea scenariilor.

În rezumat, PIXART-δ reprezintă o avansare semnificativă în generarea de imagini în timp real. Prin combinarea eșantionării accelerate cu Modelele de Consistență Latentă și controlul precis prin intermediul ControlNet-Transformer inovator, acest model prezintă o eșantionare mai rapidă și o generare eficientă de imagini cu rezoluție înaltă. Aceste avansări deschid noi posibilități pentru aplicațiile în timp real în domeniul generării de imagini.