Evaluando Modelos de IA Bajo Nuevos Estándares