Nov pristop izboljšuje generiranje slik v difuzijskih modelih

Povzetek: Ekipa raziskovalcev iz ByteDance Inc. je predstavila nov pristop za izboljšanje kakovosti slik, ki jih generirajo difuzijski modeli. Ti modeli, ki preoblikujejo hrup v strukturirane podatke, so postali ključni v računalniškem vidu in umetni inteligenci. Raziskovalci so v difuzijsko usposabljanje vključili zaznavno izgubo z uporabo samega difuzijskega modela kot zaznavnega omrežja. Ta pristop ustvarja smiselno zaznavno izgubo, kar bistveno izboljša realizem in kakovost generiranih slik. Za razliko od prejšnjih metod ta tehnika najde ravnotežje med izboljšanjem kakovosti vzorca in ohranjanjem raznolikosti vzorca, kar ponuja bolj rafiniran način usposabljanja difuzijskih modelov.

Kvantitativne ocene kažejo, da uporaba samo-zaznavnega cilja vodi do znatnih izboljšav ključnih metrik, kot sta Fréchetova razdalja in ocena Inception. Te metrike pomenijo pomembno izboljšanje vizualne kakovosti in realizma. Čeprav nov pristop še vedno zaostaja za usmerjanjem brez klasifikatorja glede na skupno kakovost vzorca, naslavlja omejitve usmerjanja brez klasifikatorja, kot so prekomerno izpostavljeni in prenaseljeni slikovni prenosi. Vključitev samo-zaznavnega cilja med difuzijskim usposabljanjem odpira nove možnosti za ustvarjanje izjemno realističnih in visokokakovostnih slik.

Raziskava, ki jo je izvedel ByteDance Inc., kaže, da difuzijski modeli dosegajo znaten napredek pri generiranju slik. Vključitev samo-zaznavnega cilja predstavlja obetavno smer za nadaljnji razvoj generativnih modelov. Ta pristop lahko koristi različnim aplikacijam, od generiranja umetnosti do naprednih nalog računalniškega vida. Pričakuje se nadaljnje raziskovanje in morebitna izboljšava usposabljanja difuzijskih modelov, kar bo vplivalo na prihodnje raziskave na tem področju.

The source of the article is from the blog macnifico.pt