Nová metodológia pre hodnotenie vizuálneho obsahu sa objavuje a revolucionalizuje oblasť

Revolučná metodológia s názvom Q-ALIGN sa objavila v oblasti hodnotenia vizuálneho obsahu a revolucionalizuje spôsob, akým vyhodnocujeme obrázky a videá. Vyvinutá výskumníkmi z Nanyang Technological University, Shanghai Jiao Tong University a SenseTime Research, Q-ALIGN predstavuje významný posun od tradičných prístupov tým, že vyučuje veľké multimodálné modely (LMMs) hodnotiť vizuálny obsah pomocou úroveň hodnotenia definovaných textom namiesto priamych numerických skórov.

Inovácia v Q-ALIGN spočíva v jeho schopnosti konvertovať existujúce skórovacie štítky na diskrétne úrovne hodnotenia definované textom počas fázy výcviku. Tento prístup sa viac blíži tomu, ako ľudskí hodnotitelia hodnotia vizuálny obsah, keďže obvykle pracujú s preddefinovanými úrovňami ako „vynikajúci“, „dobrý“ a „slušný“, namiesto konkrétnych numerických skórov. Učením LMMs pochopiť a použiť tieto textom definované úrovne pre vizuálne hodnotenie, Q-ALIGN premostí medzeru medzi strojovým hodnotením a ľudskými kognitívnymi procesmi.

Počas inferenčnej fázy Q-ALIGN napodobňuje proces zbierania skórov Mean Opinion (MOS) z hodnotení ľudí. Extrahuje pravdepodobnosti logaritmov na rôznych úrovniach hodnotenia a vypočíta pravdepodobnosti jednotlivých úrovní z priebežného zhlukovania softmax. Finálne skóre je odvodené z váženého priemeru týchto pravdepodobností, čo zrkadlí konverziu ľudských hodnotení na MOS v subjektívnych vizuálnych hodnoteniach.

Q-ALIGN preukázal pôsobivý výkon v rôznych oblastiach, vrátane hodnotenia kvality obrazu a videa (IQA a VQA) a hodnotenia estetiky obrazu (IAA). Prekonáva existujúce metódy, najmä vo scenároch zahrnujúcich nové typy obsahu a rôzne scénare hodnotenia, kde tradičné prístupy zápasia s obmedzenou schopnosťou zovšeobecnenia mimo distribučných zón.

Táto nová metodológia má potenciál pre široké uplatnenie v rôznych oblastiach, pretože jej schopnosť efektívne zovšeobecňovať nové typy obsahu ponúka robustný a intuitívny nástroj pre presné hodnotenie širokého spektra vizuálneho obsahu. Q-ALIGN nielen rieši obmedzenia existujúcich metód, ale otvára aj excitujúce možnosti pre budúce pokroky v oblasti hodnotenia vizuálneho obsahu.

Objavenie Q-ALIGN znamená paradigmu v prístupe k hodnoteniu vizuálneho obsahu, odvážne nás privádza k zarovnaniu strojového hodnotenia s ľudským posudzovaním. Ako výskumníci pokračujú vo vytváraní hraničných schopností AI, Q-ALIGN predstavuje významný krok v presnom hodnotení a pochopení vizuálneho obsahu.

The source of the article is from the blog girabetim.com.br

Privacy policy
Contact