Una metodología innovadora llamada Q-ALIGN ha surgido en el campo de evaluación de contenido visual, revolucionando la forma en que evaluamos imágenes y videos. Desarrollada por investigadores de la Universidad Tecnológica de Nanyang, la Universidad Jiao Tong de Shanghai y SenseTime Research, Q-ALIGN representa un cambio significativo en comparación con enfoques tradicionales al educar a Modelos Multi-Modalidad Grandes (LMMs) para calificar contenido visual utilizando niveles de calificación definidos por texto en lugar de puntuaciones numéricas directas.
La innovación en Q-ALIGN radica en su capacidad para convertir etiquetas de puntuación existentes en niveles de calificación definidos por texto durante la fase de entrenamiento. Este enfoque se alinea más estrechamente con la forma en que los evaluadores humanos califican el contenido visual, ya que suelen trabajar con niveles predefinidos como ‘excelente’, ‘bueno’ y ‘regular’, en lugar de puntuaciones numéricas específicas. Al enseñar a los LMMs a comprender y utilizar estos niveles de calificación definidos por texto para la calificación visual, Q-ALIGN reduce la brecha entre la evaluación basada en máquinas y los procesos cognitivos humanos.
Durante la fase de inferencia, Q-ALIGN emula el proceso de recolección de Puntuaciones de Opinión Media (MOS) a partir de calificaciones humanas. Extrae las probabilidades de registro en diferentes niveles de calificación y calcula las probabilidades de conjunto cerrado de cada nivel a través de una agrupación softmax. La puntuación final se deriva de un promedio ponderado de estas probabilidades, reflejando la conversión de calificaciones humanas en MOS en evaluaciones visuales subjetivas.
Q-ALIGN ha demostrado un rendimiento impresionante en múltiples dominios, incluida la evaluación de calidad de imagen y video (IQA y VQA) así como la evaluación estética de imágenes (IAA). Supera a los métodos existentes, especialmente en escenarios que implican tipos de contenidos novedosos y diversos, donde los enfoques tradicionales tienen dificultades debido a pobres habilidades de generalización fuera de la distribución.
Esta metodología novedosa tiene el potencial de una amplia aplicación en varios campos, ya que su capacidad para generalizar eficazmente a nuevos tipos de contenidos ofrece una herramienta robusta e intuitiva para evaluar con precisión una amplia gama de contenido visual. Q-ALIGN no solo aborda las limitaciones de los métodos existentes, sino que también abre emocionantes posibilidades para futuros avances en el campo de la evaluación de contenido visual.
El surgimiento de Q-ALIGN marca un cambio de paradigma en la forma en que abordamos la evaluación de contenido visual, acercándonos a alinear la evaluación basada en máquinas con el juicio humano. A medida que los investigadores continúan empujando los límites de las capacidades de la IA, Q-ALIGN representa un paso importante para evaluar y comprender con precisión el contenido visual.