Tesis Pregrado
Permanent URI for this collection
Browse
Browsing Tesis Pregrado by Subject "Análisis de Regresión"
Now showing 1 - 2 of 2
Results Per Page
Sort Options
Item Comparación de modelos machine learning aplicados al riesgo de crédito.(Universidad de Concepción., 2022) Martínez Fernández, Tamahí Constanza; Figueroa, Jorge; Ferreira, Guillermo; González, ReinaldoDe acuerdo al marco regulatorio que rige a las instituciones financieras, es necesario que a la hora de evaluar el riesgo de crédito las empresas establezcan de forma clara modelos que estimen la probabilidad de que un cliente falle con el objetivo de constituir provisiones necesarias que permitan cubrir eventuales pérdidas. Comúnmente la técnica estadística adoptada para este propósito en la industria financiera corresponde a la regresión logística, sin embargo, en los últimos años se ha prestado una atención creciente a los algoritmos de aprendizaje automático (Machine Learning) para desafiar y explorar nuevas soluciones a la modelación de la probabilidad de incumplimiento. Es por esto que el objetivo de la presente memoria de título consiste en comparar la capacidad predictiva de siete algoritmos de Machine Learning para la clasificación de deudores según su probabilidad de incumplimiento. Específicamente los algoritmos estudiados fueron regresión logística, análisis discriminante lineal, árboles de decisión, random forest, gradient boosting, extreme gradient boosting y support vector machines.Item Un modelo predictivo interpretable para la estimación del ingreso monetario de clientes bancarios basado en XGBOOST Y SHA.(Universidad de Concepción., 2022) Marchant Contreras, Vicente Manuel; Salas Fernández, Patricio; Ferreira Cabezas, GuillermoUsualmente, las instituciones bancarias no cuentan con información actualizada de la renta o ingresos mensuales que reciben sus clientes. Esta información es utilizada para mejorar la gestión de oferta de productos, como por ejemplo, segmentar a los clientes y ofrecer tipos de productos diferenciados. Por otra parte, estas entidades construyen modelos predictivos donde pueden llegar a utilizar cientos de variables explicativas, de las cuales solo un subconjunto de estas realmente contribuyen en capturar la variabilidad de la respuesta. En este trabajo se propone una metodología que permite entrenar un modelo de Machine Learning (XGBoost) con un subconjunto reducido de variables explicativas, en comparación a la base completa de variables que utiliza la institución. Esto, bajo el supuesto de que tener el número óptimo de variables explicativas puede igualar o aumentar el poder predictivo y disminuir la complejidad del modelo. Luego, para transparentar las predicciones obtenidas por el modelo, se ofrece un análisis de interpretabilidad utilizando el método Shapley Additive Explanations (SHAP) Lundberg and Lee (2017). Para realizar la reducción del número de variables explicativas se compararon y aplicaron dos métodos de selección de variables, Boruta-XGBoost (Kursa and Rudnicki (2010), Alsahaf et al. (2022)) y BorutaShap Keany (2020). La metodología propuesta se testeó sobre datos simulados, en donde las variables explicativas creadas tuvieron asociados distintos pesos. El objetivo principal del estudio de simulación fue ver si los métodos eran capaces de seleccionar como “importantes” aquellas variables que dependían directamente de la respuesta (de la forma Y = β1x1 + β2x2 + . . . + βpxp), y como “no importantes” o “no informativas” a aquellas que a priori no estaban relacionadas con la respuesta (xp+1, . . . , xp+q, con p, q fijos). Finalmente, aplicamos nuestra metodología sobre un conjunto de datos real. Este cuenta con los registros de renta de 10.000 clientes bancarios y un total de 426 variables explicativas. Los resultados muestran que el método BorutaShap ofrece un subconjunto de 35 variables que aumentan el poder predictivo del modelo XGBoost, superando incluso al modelo entrenado con las 426 variables originales en cuanto a porcentaje de éxito. Este trabajo representa un aporte para las instituciones financieras, ya que a partir de la adopción de nuestra metodología serán capaces de identificar de forma consistente y dar seguimiento a las variables más influyentes, pudiendo además reducir la complejidad y el tiempo de entrenamiento de los modelos XGBoost sin sacrificar el poder predictivo de los mismos.