Nový prístup zlepšuje generovanie obrazov v difúznych modeloch

Tím výskumníkov z ByteDance Inc. predstavil novú metódu na zlepšenie kvality obrazov generovaných difúznymi modelmi. Tieto modely, ktoré transformujú šum do štruktúrovaných údajov, sa stali kľúčovými v oblasti počítačového videnia a umelou inteligenciou. Výskumníci integrovali vnímanú stratu do trénovania na difúzii pomocou samotného difúzného modelu ako vnímanej siete. Tento prístup generuje významnú vnímanú stratu, čo významne zlepšuje realistickosť a kvalitu generovaných obrazov. Na rozdiel od predchádzajúcich metód táto technika dosahuje rovnováhu medzi zlepšovaním kvality vzorky a zachovávaním rozmanitosti vzorky, čo ponúka sofistikovanejší spôsob trénovania difúznych modelov.

Kvantitatívne hodnotenia ukazujú, že použitie objektívneho vnímania samo seba viedlo k významnému zlepšeniu kľúčových metrík, ako je Frechet Inception Distance a Inception Score. Tieto metriky znamenajú významné zlepšenie vizuálnej kvality a realismu. Aj keď tento nový prístup stále zaostáva za navádzaním bez klasifikátora, pokiaľ ide o celkovú kvalitu vzorky, rieši obmedzenia navádzania bez klasifikátora, ako je nadmerná expozícia a prenasýtenie obrazu. Zahrnutie objektívneho vnímania samo seba počas trénovania difúzie otvára nové možnosti pre generovanie vysoko realistických a vysokej kvality obrazov.

Výskum vykonaný spoločnosťou ByteDance Inc. ukazuje, že difúzne modely dosahujú významný pokrok v generovaní obrazov. Integrácia objektívneho vnímania samo seba poskytuje sľubný smer pre ďalší rozvoj generatívnych modelov. Tento prístup môže mať prospech v rôznych aplikáciách od tvorby umenia po pokročilé úlohy počítačového videnia. Predpokladá sa ďalší výskum a potenciálne zlepšenia v trénovaní difúznych modelov, ktoré ovplyvnia budúci výskum v tejto oblasti.

The source of the article is from the blog maestropasta.cz