Nuevo marco de aprendizaje automático muestra promesa en la detección de fraudes fiscales

El fraude fiscal representa un desafío considerable para los gobiernos de todo el mundo, lo que resulta en pérdidas financieras significativas. Para mejorar las capacidades de detección de fraudes y salvaguardar los ingresos gubernamentales, las autoridades fiscales recurren cada vez más a estrategias de aprendizaje automático. Sin embargo, las estrategias actuales de detección tienen limitaciones, lo que genera la necesidad de un enfoque novedoso.

Una reciente publicación de investigadores de la Universidad King Saud presenta un marco de aprendizaje automático innovador para la detección de fraudes fiscales. A diferencia de los enfoques tradicionales, este marco combina modelos supervisados y no supervisados, utilizando paradigmas de aprendizaje en conjunto para mejorar la precisión y la exhaustividad.

El marco consta de cuatro módulos:

1. Módulo supervisado: Implementa un modelo de Extreme Gradient Boosting (XGBoost) para clasificar las declaraciones de impuestos en diferentes grupos. El modelo genera una matriz que representa la asignación de las declaraciones de impuestos a los nodos terminales en cada árbol, la cual sirve como entrada para el siguiente módulo.

2. Módulo no supervisado: Utiliza autoencoders para identificar características anómalas en los datos originales. Mediante la codificación y la regeneración de la entrada, se detectan las anomalías en función del error de regeneración. La matriz resultante y las puntuaciones de anomalía se alimentan al siguiente módulo.

3. Módulo de comportamiento: Calcula una puntuación de cumplimiento para cada contribuyente, considerando los resultados de las auditorías y el tiempo. Esta puntuación refleja el cumplimiento o incumplimiento a lo largo del tiempo, proporcionando información valiosa para la detección de fraudes.

4. Módulo de predicción: Combina todas las características ingenierizadas para predecir el fraude fiscal. Recibe información del módulo supervisado, el módulo no supervisado y el módulo de comportamiento, utilizando dos clasificadores (Red Neuronal Artificial y Máquina de Vectores de Soporte) para evaluar el rendimiento de las características ingenierizadas.

El estudio de evaluación realizado utilizando datos de la Autoridad de Zakat, Impuestos y Aduanas de Arabia Saudita mostró resultados prometedores. El modelo de Red Neuronal Artificial demostró una alta precisión en la predicción de la clase «fraude». El marco superó a los modelos que utilizaban solo datos originales, lo que demuestra su potencial para ser adoptado a nivel mundial.

A pesar de su éxito, el marco tiene algunas limitaciones. Estas incluyen suposiciones de comportamiento homogéneo dentro de sectores/tamaños de empresas y puntuaciones de cumplimiento cercanas a cero para muchos contribuyentes. No obstante, este enfoque innovador mejora significativamente las capacidades de las autoridades fiscales en la detección de fraudes fiscales. La integración de los modelos supervisados y no supervisados con las puntuaciones de cumplimiento comportamental ofrece un cambio de paradigma potencial en la detección de fraudes, promoviendo medidas más precisas y exhaustivas.

The source of the article is from the blog girabetim.com.br