Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.udec.cl/jspui/handle/11594/12054
Título : Implementación de algoritmos de IA para la detección de fraude en servicios de salud.
Autor : Figueroa Iturrieta, Rosa
Contreras Valderrama, Víctor Ricardo
Palabras clave : Algoritmos computacionales;Inteligencia artificial;Fraude de seguros
Fecha de publicación : 2024
Editorial : Universidad de Concepción
Resumen : El fraude en la salud es un tema muy relevante hoy. El fraude en seguros médicos en Estados Unidos (Medicare) causa pérdidas superiores a los miles de millones de dólares por año. Adicional a las pérdidas económicas se suma el aumento de burocracia del proceso de cuenta médica, producto de los fraudes, que dificultan y hacen engorrosos los procesos de justificación y cobro de cuentas médicas. Los actores principales de estos procesos son los proveedores de salud (hospitales y otros centros de salud), doctores y los pacientes que utilizan este servicio. Esta memoria de título está enfocada en atacar este problema utilizando datos tabulares de código abierto que contienen la información de pacientes registrados en el programa federal de seguro médico Medicare con el proveedor de salud respectivo asignado a cada paciente. En total se utilizó información de 558.211 pacientes. Primero, se realizó un análisis exploratorio de los datos para procesarlos seguido de una ingeniería de características. Posteriormente se hizo una sintonización de hiperparámetros con validación cruzada para asegurar la robustez de los parámetros seleccionados. Paralelamente, se evaluó el error de cada clasificador para monitorear el rendimiento de los modelos. Finalmente, se entrenaron y evaluaron tres clasificadores (AdaBoost, Support Vector Machine (SVM) y TabNet), con el objetivo de clasificar los ejemplos del set de datos en las clases “fraude” y “no fraude”. En términos de sensibilidad, el mejor clasificador fue SVM (sensibilidad=0.62), seguido por AdaBoost (sensibilidad = 0.61). Por otro lado, en términos de área bajo la curva de operación, el clasificador que presento los mejores resultados fue AdaBoost con un puntaje de 0.7. Este estudio revela la capacidad de técnicas avanzadas de aprendizaje automático para identificar posibles fraudes en programas de seguro médico, demostrando que, aunque el SVM tuvo la mejor sensibilidad, AdaBoost ofreció un equilibrio más robusto entre sensibilidad y especificidad, como se refleja en su AUC-ROC superior. Este enfoque no solo aporta a la detección eficiente de fraudes sino también subraya la importancia de la selección y optimización adecuadas de modelos para abordar problemas complejos de datos.
Health fraud is a highly relevant issue today. Insurance fraud within the United States Medicare system results in losses amounting to billions of dollars annually. In addition to financial losses, there is an increase in the bureaucracy of the medical billing process, a direct consequence of fraud, which complicates and encumbers the processes of justification and billing for medical services. The main actors in these processes are healthcare providers (hospitals and other health centers), doctors, and the patients who use these services. This thesis focuses on addressing this problem using open-source tabular data containing information on patients registered in the federal Medicare insurance program, along with the respective healthcare provider assigned to each patient. Information from a total of 558,211 patients was used. First, an exploratory data analysis was conducted to process the data, followed by feature engineering. Subsequently, hyperparameter tuning was performed with cross-validation to ensure the robustness of the selected parameters. Concurrently, the error of each classifier was evaluated to monitor the models' performance. Finally, three classifiers (AdaBoost, Support Vector Machine (SVM), and TabNet) were trained and evaluated, aiming to classify the dataset examples into “fraud” and “non-fraud” categories. In terms of sensitivity, the best classifier was SVM (sensitivity=0.62), followed by AdaBoost (sensitivity=0.61). On the other hand, in terms of the area under the receiver operating characteristic curve, AdaBoost presented the best results with a score of 0.7. This study reveals the capability of advanced machine learning techniques to identify potential frauds in medical insurance programs, showing that, although SVM had the best sensitivity, AdaBoost offered a more robust balance between sensitivity and specificity, as reflected in its superior AUC-ROC. This approach not only contributes to the efficient detection of fraud but also underscores the importance of proper model selection and optimization to address complex data problems.
Descripción : Memoria de Titulo para optar al título profesional de Ingeniero/a Civil Electrónico/a
URI : http://repositorio.udec.cl/jspui/handle/11594/12054
Aparece en las colecciones: Ingeniería Eléctrica - Tesis Pregrado

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
contreras_v_v_2024_ING.pdf661,79 kBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons