Ny Metode til Vurdering af Visuelt Indhold Opstår og Revolutionerer Feltet

En banebrydende metodologi kaldet Q-ALIGN er opstået inden for vurdering af visuelt indhold og revolutionerer måden, vi evaluerer billeder og videoer på. Udviklet af forskere fra Nanyang Technological University, Shanghai Jiao Tong University og SenseTime Research, repræsenterer Q-ALIGN en betydelig afvigelse fra traditionelle tilgange ved at uddanne store multi-modalitetsmodeller (LMMs) til at vurdere visuelt indhold ved hjælp af tekstdinede vurderingsniveauer i stedet for direkte numeriske point.

Innovationen i Q-ALIGN ligger i dens evne til at konvertere eksisterende pointlabels til diskrete tekstdinede vurderingsniveauer under træningsfasen. Denne tilgang stemmer mere overens med, hvordan menneskelige vurderere evaluerer visuelt indhold, da de typisk arbejder med foruddefinerede niveauer som ‘excellent,’ ‘god’ og ‘fair,’ i stedet for specifikke numeriske point. Ved at lære LMMs at forstå og bruge disse tekstdinede niveauer til visuel vurdering, broer Q-ALIGN kløften mellem maskinbaseret vurdering og menneskelige kognitive processer.

Under inferensfasen emulerer Q-ALIGN processen med at indsamle mean opinion scores (MOS) fra menneskelige vurderinger. Den udtrækker logparate sandsynligheder for forskellige vurderingsniveauer og beregner de lukkede sandsynligheder for hvert niveau gennem softmax pooling. Den endelige score udledes fra et vægtet gennemsnit af disse sandsynligheder og afspejler konverteringen af menneskelige vurderinger til MOS i subjektive visuelle vurderinger.

Q-ALIGN har demonstreret imponerende præstationer inden for flere domæner, herunder vurdering af billed- og videokvalitet (IQA og VQA) samt vurdering af billedæstetik (IAA). Den overgår eksisterende metoder, især i scenarier, der involverer nye typer indhold og forskellige scoringsscenarier, hvor traditionelle tilgange kæmper på grund af dårlige generaliseringsevner uden for distribution.

Denne nye metode har potentiale for bred anvendelse på tværs af forskellige områder, da dens evne til effektivt at generalisere til nye typer indhold tilbyder et robust og intuitivt værktøj til nøjagtigt at vurdere en bred vifte af visuelt indhold. Q-ALIGN adresserer ikke kun begrænsningerne ved eksisterende metoder, men åbner også spændende muligheder for fremtidige fremskridt inden for vurdering af visuelt indhold.

Opkomsten af Q-ALIGN markerer et paradigmeskift i vores tilgang til vurdering af visuelt indhold og bringer os nærmere en sammenkædning af maskinbaseret evaluering med menneskelig vurdering. I takt med at forskere fortsætter med at udfordre grænserne for AI’s evner, repræsenterer Q-ALIGN et betydeligt skridt fremad i præcis evaluering og forståelse af visuelt indhold.

The source of the article is from the blog toumai.es