Nueva metodología para la evaluación de contenido visual surge, revolucionando el campo

Una metodología innovadora llamada Q-ALIGN ha surgido en el campo de la evaluación de contenido visual, revolucionando la forma en que evaluamos imágenes y videos. Desarrollado por investigadores de la Universidad Tecnológica de Nanyang, la Universidad Jiao Tong de Shanghai y SenseTime Research, Q-ALIGN representa una importante desviación de los enfoques tradicionales al educar a los Modelos de Multi-Modalidad Grande (LMMs, por sus siglas en inglés) para calificar el contenido visual utilizando niveles de calificación definidos por texto en lugar de puntuaciones numéricas directas.

La innovación en Q-ALIGN radica en su capacidad para convertir las etiquetas de puntuación existentes en niveles discretos de calificación definidos por texto durante la fase de entrenamiento. Este enfoque se alinea más estrechamente con la forma en que los evaluadores humanos evalúan el contenido visual, ya que generalmente trabajan con niveles predefinidos como ‘excelente’, ‘bueno’ y ‘aceptable’, en lugar de puntuaciones numéricas específicas. Al enseñar a los LMMs a entender y utilizar estos niveles de calificación definidos por texto para la calificación visual, Q-ALIGN acerca la evaluación basada en máquinas a los procesos cognitivos humanos.

Durante la fase de inferencia, Q-ALIGN emula el proceso de recolección de Puntuaciones de Opinión Media (MOS, por sus siglas en inglés) de las calificaciones humanas. Extrae las probabilidades logarítmicas en diferentes niveles de calificación y calcula las probabilidades de conjuntos cerrados de cada nivel a través de la agrupación de softmax. La puntuación final se deriva de un promedio ponderado de estas probabilidades, reflejando la conversión de las calificaciones humanas en MOS en evaluaciones visuales subjetivas.

Q-ALIGN ha demostrado un rendimiento impresionante en múltiples dominios, incluyendo la evaluación de calidad de imágenes y videos (IQA y VQA, por sus siglas en inglés), así como la evaluación estética de imágenes (IAA, por sus siglas en inglés). Supera a los métodos existentes, especialmente en escenarios que involucran tipos de contenido novedosos y diversas situaciones de puntuación, donde los enfoques tradicionales luchan debido a sus limitadas habilidades de generalización fuera de la distribución.

Esta nueva metodología tiene el potencial de tener una amplia aplicación en varios campos, ya que su capacidad para generalizar de manera efectiva a nuevos tipos de contenido ofrece una herramienta sólida e intuitiva para evaluar con precisión una amplia gama de contenido visual. Q-ALIGN no solo aborda las limitaciones de los métodos existentes, sino que también abre emocionantes posibilidades para futuros avances en el campo de la evaluación de contenido visual.

La aparición de Q-ALIGN marca un cambio de paradigma en la forma en que abordamos la evaluación de contenido visual, acercándonos más a alinear la evaluación basada en máquinas con el juicio humano. A medida que los investigadores continúan empujando los límites de las capacidades de la IA, Q-ALIGN representa un paso significativo hacia adelante en la evaluación y comprensión precisa del contenido visual.

The source of the article is from the blog portaldoriograndense.com

Privacy policy
Contact