Please use this identifier to cite or link to this item: http://repositorio.udec.cl/jspui/handle/11594/5166
Title: Desarrollo de algoritmos para la clasificación de textos biomédicos utilizando expresiones regulares y aprendizaje activo.
Authors: Pezoa Núñez, Jorge; supervisor de grado
Figueroa Iturrieta, Rosa; supervisor de grado
Flores Jara, Chistopher Alejandro
Keywords: Algoritmos;Bioingeniería;Indexación Semántica Latente;Semántica;Procesamiento de Datos;Industria, Innovación e Infraestructura
Issue Date: 2021
Publisher: Universidad de Concepción.
Abstract: Los algoritmos de clasificación de textos, los cuales sirven de apoyo a los procesos de toma de decisiones clínicas, requieren costosos ejemplos de entrenamiento etiquetados por profesionales especializados. El aprendizaje activo (AL) busca disminuir ese costo al reducir el número de textos etiquetados que se requieren para lograr un determinado desempeño en los algoritmos de clasificación. Si bien el AL ha sido estudiado en algoritmos de clasificación lineales y probabilísticos, y recientemente, en algoritmos basados en redes neuronales profundas (DNNs), no ha sido estudiado en algoritmos de clasificación basados en expresiones regulares. Debido a ésto, el objetivo de esta tesis es desarrollar algoritmos para la clasificación de textos biomédicos utilizando expresiones regulares y AL. Las principales contribuciones de este trabajo respecto al uso de expresiones regulares para la clasificación de textos biomédicos corresponden al desarrollo de un algoritmo denominado FREGEX (extractor de características basado en expresiones regulares) para la generación automática un espacio de características utilizando textos biomédicos en español, a un algoritmo denominado CREGEX (clasificador de textos basado en expresiones regulares) que permite clasificar textos biomédicos y a una estrategia de consulta que junto a un criterio de detención transforman a CREGEX en un algoritmo de clasificación de textos biomédicos de AL. Los resultados indican que FREGEX generó un espacio de características representativo para CREGEX y cercano al lenguaje natural. En la mayoría de los casos, el desempeño de CREGEX fue superior a los clasificadores basados en una máquina de soporte vectorial (SVM), Naïve Bayes (NB) y en una representación de codificador bidireccional de transformadores (BERT) en términos de aciertos (ACC) y valor-F (F1), con resultados sobre el 88 % en ambas métricas de desempeño. Las curvas de aprendizaje indican que el AL redujo eficientemente el número de ejemplos de entrenamiento necesarios para obtener un mismo desempeño en términos de ACC y F1 en comparación al resto de los clasificadores. En este sentido, el criterio de detención aplicado al proceso de AL de CREGEX permitió utilizar sólo entre un 32 % a un 50 % del total de ejemplos de entrenamiento, con una diferencia de desempeño inferior al 2 % respecto del valor máximo posible de la curva de aprendizaje.
Description: Tesis para optar al grado académico de Doctor en Ciencias de la Ingeniería con mención en Ingeniería Eléctrica.
URI: http://repositorio.udec.cl/jspui/handle/11594/5166
Appears in Collections:Ingeniería Eléctrica - Tesis Doctorado

Files in This Item:
File Description SizeFormat 
Tesis_Desarrollo de Algoritmos.Image.Marked.pdf8,82 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons