La IA generativa de Microsoft muestra respuestas inexactas, revela audio filtrado

Se ha filtrado un audio de una presentación interna que arroja luz sobre la herramienta de IA generativa de Microsoft, Security Copilot, y su lucha por proporcionar respuestas precisas. La presentación discutió los resultados de las pruebas de «caza de amenazas», donde la IA analizó un registro de seguridad de Windows en busca de actividades maliciosas potenciales. Según un investigador de Microsoft, la herramienta a menudo «alucinaba» respuestas incorrectas, lo que dificultaba obtener información confiable. Para mostrar las capacidades de la herramienta, Microsoft tuvo que seleccionar ejemplos que parecieran precisos, ya que la IA generaba respuestas diferentes para la misma pregunta debido a su naturaleza estocástica.

Security Copilot funciona de manera similar a un chatbot, proporcionando respuestas al estilo de un representante de servicio al cliente. Se basa en el gran modelo de lenguaje GPT-4 de OpenAI, que también impulsa otras aplicaciones de IA generativa de Microsoft como el asistente de búsqueda de Bing. El audio filtrado sugiere que Microsoft tuvo acceso temprano a GPT-4, y las demostraciones fueron exploraciones iniciales de su potencial.

Sin embargo, los investigadores revelaron que la IA frecuentemente producía respuestas incorrectas durante sus primeras iteraciones. El fenómeno de la alucinación, donde la IA genera respuestas no relacionadas con la consulta, fue un desafío importante. Microsoft intentó abordar este problema anclando la IA con datos reales, pero en el caso de Security Copilot, el modelo de lenguaje grande (LLM, por sus siglas en inglés) utilizado, GPT-4, no fue entrenado específicamente en datos de ciberseguridad. En su lugar, se basó en su gran conjunto de datos generales.

No está claro si Microsoft presentó estos ejemplos seleccionados al gobierno y a posibles clientes, o si la compañía fue transparente sobre el proceso de selección. Microsoft afirmó que la tecnología discutida en la reunión era anterior a Security Copilot y se probó en simulaciones creadas a partir de conjuntos de datos públicos, sin utilizar datos de clientes.

Esta filtración plantea preguntas sobre la confiabilidad y precisión de las herramientas de IA generativa, especialmente en dominios críticos como la ciberseguridad. Se necesitan más investigaciones y esfuerzos de desarrollo para eliminar las alucinaciones y mejorar el rendimiento de estos sistemas de IA.

The source of the article is from the blog krama.net