El Desafío de los Datos de Entrenamiento de Calidad en Compañías de Inteligencia Artificial

Las compañías de inteligencia artificial (IA) enfrentan un desafío significativo al adquirir datos de entrenamiento de alta calidad, según un informe reciente. Esta problemática ha llevado a estas empresas a explorar diversos métodos para superar el obstáculo, incluso si eso implica adentrarse en terrenos oscuros de la ley de derechos de autor en IA.

Una empresa destacada, OpenAI, se encontró desesperadamente necesitada de datos de entrenamiento y desarrolló su modelo de transcripción de audio Whisper como una solución. Este modelo transcribió más de un millón de horas de videos de YouTube, que luego se utilizaron para entrenar a GPT-4, el modelo de lenguaje más avanzado de OpenAI. Si bien OpenAI reconoció las posibles implicaciones legales de este enfoque, creyó que se ajustaba al concepto de uso justo. Cabe destacar que el presidente de OpenAI, Greg Brockman, supervisó personalmente la recopilación de los videos utilizados para el entrenamiento.

En respuesta a estas afirmaciones, la portavoz de OpenAI, Lindsay Held, afirmó que la empresa cura conjuntos de datos «únicos» para cada uno de sus modelos para mejorar su comprensión del mundo. Held explicó que OpenAI utiliza diversas fuentes de datos, incluidos datos de dominio público y asociaciones no públicas, además de explorar la generación de datos sintéticos. La empresa agotó sus existencias de datos útiles en 2021 y comenzó a considerar la transcripción de videos de YouTube, podcasts y audiolibros, junto con otros recursos como código informático de Github, bases de datos de movimientos de ajedrez y contenido educativo de Quizlet.

Google, otro actor importante en el campo de la IA, también ha enfrentado desafíos para obtener datos de entrenamiento. El portavoz de la empresa, Matt Bryant, respondió a informes que indicaban que OpenAI había estado utilizando contenido de YouTube con fines de entrenamiento. Bryant enfatizó que el ‘scraping’ o la descarga no autorizada del contenido de YouTube está estrictamente prohibido por sus términos de servicio. Google reconoció que entrena sus modelos con contenido selecto de YouTube de acuerdo con acuerdos realizados con los creadores de YouTube. Además, la empresa realizó modificaciones en su política de privacidad para ampliar las formas en que podría utilizar los datos de los consumidores, como incorporarlos en herramientas de oficina como Google Docs.

Meta, anteriormente conocida como Facebook, se encontró con obstáculos similares para adquirir datos de entrenamiento de alta calidad. Grabaciones obtenidas por The New York Times revelaron discusiones dentro del equipo de IA de Meta sobre el uso no permitido de obras con derechos de autor. Meta exploró diversas estrategias para ponerse al día con OpenAI, incluida la posibilidad de adquirir licencias de libros o incluso comprar una gran empresa editorial. Los cambios relacionados con la privacidad realizados por Meta en respuesta al escándalo de Cambridge Analytica también limitaron su capacidad para utilizar datos de consumidores.

Las compañías de IA, incluidas Google, OpenAI y otras, están luchando con la disminución de la disponibilidad de datos de entrenamiento para sus modelos, los cuales dependen en gran medida del volumen de datos para mejorar. El consumo rápido de nuevo contenido puede superar la capacidad de obtener datos de entrenamiento frescos para 2028. Ante este desafío, posibles soluciones mencionadas en informes recientes incluyen entrenar modelos con datos sintéticos generados por sus propios modelos o emplear técnicas de aprendizaje curricular. Sin embargo, la efectividad de estos enfoques aún no ha sido probada.

Preguntas Frecuentes

The source of the article is from the blog motopaddock.nl

Privacy policy
Contact