Un nuevo conjunto de datos revoluciona la comprensión de conceptos visuales en el comercio electrónico

En el campo de la visión por computadora y el procesamiento del lenguaje natural, el desarrollo de conjuntos de datos a gran escala es crucial para entrenar algoritmos que puedan entender e interpretar imágenes. Sin embargo, la disponibilidad de conjuntos de datos correctamente anotados para funciones que fusionan la visión y el lenguaje ha sido un desafío importante, limitando el progreso en este campo.

Les presentamos el conjunto de datos «Vamos de Compras» (LGS), un recurso innovador que llena este vacío importante. Desarrollado por investigadores de la Universidad de California, Berkeley, ScaleAI y la Universidad de Nueva York, LGS es un conjunto de datos completo que contiene 15 millones de pares de imágenes y descripciones provenientes de aproximadamente 10,000 sitios web de comercio electrónico. A diferencia de los conjuntos de datos tradicionales, LGS se enfoca en objetos en primer plano con fondos más simples, que es una característica distintiva de las imágenes de comercio electrónico.

La metodología detrás de la creación de LGS es meticulosa e innovadora. El conjunto de datos presenta predominantemente productos contra fondos claros, lo que permite a los modelos enfocarse en el objeto de interés. Esto contrasta con los conjuntos de datos típicos donde el sujeto a menudo se mezcla con un fondo complejo. El proceso de recolección involucró un flujo de trabajo semiautomatizado que recopiló de manera eficiente títulos de productos, descripciones e imágenes correspondientes, garantizando datos de alta calidad. El conjunto de datos abarca una amplia gama de productos, proporcionando información visual y textual diversa.

El conjunto de datos LGS ha demostrado su utilidad en diversas aplicaciones. Los modelos entrenados en LGS han mostrado un rendimiento mejorado en tareas como la clasificación de imágenes, la reconstrucción, la generación y la descripción, especialmente en el contexto de comercio electrónico. La distribución única del conjunto de datos y los pares de imágenes y descripciones de alta calidad mejoran significativamente la comprensión del modelo de los conceptos visuales específicos del comercio electrónico. Este aspecto de LGS es particularmente valioso para aplicaciones que requieren una comprensión profunda de las imágenes y descripciones de productos.

La introducción del conjunto de datos LGS representa un avance significativo en la comprensión de conceptos visuales, específicamente en el ámbito del comercio electrónico. Aborda la necesidad crítica de conjuntos de datos a gran escala y alta calidad para tareas de visión y lenguaje en este dominio. La disponibilidad de LGS enriquece los recursos disponibles para investigadores y desarrolladores, abriendo nuevas oportunidades para la investigación innovadora y el desarrollo de aplicaciones en los campos de la visión por computadora y el procesamiento del lenguaje natural. Con su enfoque distintivo en la imaginería y las descripciones de comercio electrónico, LGS sienta las bases para el desarrollo de modelos más especializados y precisos en este dominio en constante expansión.

The source of the article is from the blog windowsvistamagazine.es