Pixart-δ : Avancement de la génération d'images en temps réel avec l'intégration de ControlNet-Transformer

Résumé :
Le développement des modèles de conversion texte-en-image connaît une demande croissante en matière de visuels de haute qualité. Cependant, ces modèles sont souvent confrontés à des défis d’efficacité de l’entraînement et d’applicabilité en temps réel. En réponse à cela, une récente publication de recherche présente PIXART-δ, une avancée qui intègre de manière transparente les modèles de cohérence latente (LCM) et ControlNet-Transformer dans le framework PIXART-α existant. Cette intégration permet une génération accélérée d’images et un contrôle précis, ouvrant de nouvelles possibilités pour les applications en temps réel.

PIXART-δ exploite la Distillation de Cohérence Latente (LCD) pour l’entraînement, qui est une version perfectionnée de l’algorithme de Distillation de Cohérence (CD). L’incorporation de ControlNet dans PIXART-δ implique une architecture novatrice ControlNet-Transformer, spécialement conçue pour les modèles basés sur le Transformer comme PIXART-δ. La structure de ControlNet est appliquée de manière sélective aux N premiers blocs de base du Transformer, ce qui améliore la contrôlabilité et les performances.

L’efficacité de l’entraînement est l’un des points forts de PIXART-δ, car il subit avec succès la distillation dans une contrainte mémoire GPU de 32 Go, prenant en charge des résolutions d’image allant jusqu’à 1024 × 1024. En termes de vitesse d’inférence, PIXART-δ surpasse les méthodes comparables, obtenant des résultats impressionnants en seulement quatre étapes. Cette efficacité représente une amélioration significative par rapport au modèle précédent PIXART-α et aux autres méthodes standard.

L’efficacité de l’architecture ControlNet-Transformer est démontrée par une étude d’ablation, révélant une convergence plus rapide et des performances améliorées. L’impact du nombre de blocs copiés (N) sur les performances est également analysé, mettant en évidence des résultats optimaux avec N = 1 dans la plupart des scénarios.

En résumé, PIXART-δ représente une avancée significative dans la génération d’images en temps réel. En combinant l’échantillonnage accéléré avec les modèles de cohérence latente et le contrôle précis grâce à l’innovant ControlNet-Transformer, ce modèle permet un échantillonnage plus rapide et une génération efficace d’images haute résolution. Ces avancées ouvrent de nouvelles possibilités pour les applications en temps réel dans le domaine de la génération d’images.

The source of the article is from the blog trebujena.net