Desarrollo de algoritmos para la clasificación de textos biomédicos utilizando expresiones regulares y aprendizaje activo.
Loading...
Date
2021
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad de Concepción
Abstract
Los algoritmos de clasificación de textos, los cuales sirven de apoyo a los procesos
de toma de decisiones clínicas, requieren costosos ejemplos de entrenamiento
etiquetados por profesionales especializados. El aprendizaje activo (AL) busca
disminuir ese costo al reducir el número de textos etiquetados que se requieren
para lograr un determinado desempeño en los algoritmos de clasificación. Si bien
el AL ha sido estudiado en algoritmos de clasificación lineales y probabilísticos, y
recientemente, en algoritmos basados en redes neuronales profundas (DNNs), no
ha sido estudiado en algoritmos de clasificación basados en expresiones regulares.
Debido a ésto, el objetivo de esta tesis es desarrollar algoritmos para la clasificación
de textos biomédicos utilizando expresiones regulares y AL.
Las principales contribuciones de este trabajo respecto al uso de expresiones
regulares para la clasificación de textos biomédicos corresponden al desarrollo
de un algoritmo denominado FREGEX (extractor de características basado en
expresiones regulares) para la generación automática un espacio de características
utilizando textos biomédicos en español, a un algoritmo denominado CREGEX
(clasificador de textos basado en expresiones regulares) que permite clasificar textos
biomédicos y a una estrategia de consulta que junto a un criterio de detención
transforman a CREGEX en un algoritmo de clasificación de textos biomédicos de
AL.
Los resultados indican que FREGEX generó un espacio de características
representativo para CREGEX y cercano al lenguaje natural. En la mayoría de los
casos, el desempeño de CREGEX fue superior a los clasificadores basados en una
máquina de soporte vectorial (SVM), Naïve Bayes (NB) y en una representación
de codificador bidireccional de transformadores (BERT) en términos de aciertos
(ACC) y valor-F (F1), con resultados sobre el 88 % en ambas métricas de desempeño.
Las curvas de aprendizaje indican que el AL redujo eficientemente el número
de ejemplos de entrenamiento necesarios para obtener un mismo desempeño en
términos de ACC y F1 en comparación al resto de los clasificadores. En este
sentido, el criterio de detención aplicado al proceso de AL de CREGEX permitió
utilizar sólo entre un 32 % a un 50 % del total de ejemplos de entrenamiento, con
una diferencia de desempeño inferior al 2 % respecto del valor máximo posible de
la curva de aprendizaje.
Description
Tesis presentada para optar al grado de Doctor en Ciencias de la Ingeniería con mención en Ingeniería Eléctrica.
Keywords
Algoritmos, Bioingeniería, Indexación Semántica Latente, Semántica, Procesamiento de Datos, Industria, Innovación e Infraestructura