Resumen:
Una de las tareas más demandantes de los departamentos de ventas en el sector financiero, radica en el ofrecimiento de productos y servicios a los clientes a través de canales directos. El presente trabajo se centra en la creación de un ranking para guiar las labores de marketing directo de una entidad financiera de manera efectiva a partir de datos que poseen el principal problema de estar incompletos. Para conseguir este objetivo se plantea entrenar modelos de clasificación para identificar a los clientes más propensos a contratar los productos ofrecidos y modelos de regresión para estimar cuánto dinero se invertiría. Desde el punto de la incompletitud de los datos, se comparan tres algoritmos de imputación: GAIN (Yoon, Jordon, & van der Schaar, 2018), MICE (Azur, Stuart, Frangakis, & Leaf, 2011) y missForest (Stekhoven & Bühlmann, 2011). A partir de la porción de los datos en los que todos sus atributos eran conocidos, se realizaron simulaciones sobre conjuntos con distintos niveles de incompletitud y, en todas ellas, missForest superó significativamente a los demás algoritmos de imputación en términos de RMSE y PFC. Sin embargo, dado el excesivo costo computacional de missForest y sumando el hecho de que no se pueden aplicar modelos ya entrenados de este algoritmo a datos nuevos, GAIN se muestra como mejor opción para las tareas de imputación de nuevos datos.
Desde los elementos que componen el ranking –modelos de clasificación y regresión– se
implementan y comparan modelos de Random Forest (James, Witten, Hastie, & Tibshirani,
2013) entrenados desde los datos imputados, además de modelos de XGBoost (Chen &
Guestrin, 2016) entrenados desde datos imputados e incompletos. XGBoost es el algoritmo que exhibe mejores resultados en términos de exactitud balanceada para las tareas de clasificación, superando a los demás algoritmos significativamente en dos de los tres productos analizados. Por contraparte, en las tareas de regresión no se logran resultados satisfactorios, alcanzando errores absolutos medios de entre 86 y 420 veces el valor de las cifras que se deseaban predecir. Entonces, se decide utilizar solo las predicciones de los modelos de clasificación de clientes para guiar el marketing directo de la entidad financiera.