Browsing by Author "Flores Jara, Christopher Alejandro"
Now showing 1 - 3 of 3
Results Per Page
Sort Options
Item Desarrollo de algoritmos para la clasificación de textos biomédicos utilizando expresiones regulares y aprendizaje activo.(Universidad de Concepción, 2021) Flores Jara, Christopher Alejandro; Pezoa Núñez, Jorge Edgardo; Figueroa Iturrieta, Rosa LilianaLos algoritmos de clasificación de textos, los cuales sirven de apoyo a los procesos de toma de decisiones clínicas, requieren costosos ejemplos de entrenamiento etiquetados por profesionales especializados. El aprendizaje activo (AL) busca disminuir ese costo al reducir el número de textos etiquetados que se requieren para lograr un determinado desempeño en los algoritmos de clasificación. Si bien el AL ha sido estudiado en algoritmos de clasificación lineales y probabilísticos, y recientemente, en algoritmos basados en redes neuronales profundas (DNNs), no ha sido estudiado en algoritmos de clasificación basados en expresiones regulares. Debido a ésto, el objetivo de esta tesis es desarrollar algoritmos para la clasificación de textos biomédicos utilizando expresiones regulares y AL. Las principales contribuciones de este trabajo respecto al uso de expresiones regulares para la clasificación de textos biomédicos corresponden al desarrollo de un algoritmo denominado FREGEX (extractor de características basado en expresiones regulares) para la generación automática un espacio de características utilizando textos biomédicos en español, a un algoritmo denominado CREGEX (clasificador de textos basado en expresiones regulares) que permite clasificar textos biomédicos y a una estrategia de consulta que junto a un criterio de detención transforman a CREGEX en un algoritmo de clasificación de textos biomédicos de AL. Los resultados indican que FREGEX generó un espacio de características representativo para CREGEX y cercano al lenguaje natural. En la mayoría de los casos, el desempeño de CREGEX fue superior a los clasificadores basados en una máquina de soporte vectorial (SVM), Naïve Bayes (NB) y en una representación de codificador bidireccional de transformadores (BERT) en términos de aciertos (ACC) y valor-F (F1), con resultados sobre el 88 % en ambas métricas de desempeño. Las curvas de aprendizaje indican que el AL redujo eficientemente el número de ejemplos de entrenamiento necesarios para obtener un mismo desempeño en términos de ACC y F1 en comparación al resto de los clasificadores. En este sentido, el criterio de detención aplicado al proceso de AL de CREGEX permitió utilizar sólo entre un 32 % a un 50 % del total de ejemplos de entrenamiento, con una diferencia de desempeño inferior al 2 % respecto del valor máximo posible de la curva de aprendizaje.Item Desarrollo de algoritmos para la extracción de características y la clasificación automática de la obesidad en registros médicos electrónicos con un enfoque jerárquico multiclase(Universidad de Concepción, 2017) Flores Jara, Christopher Alejandro; Figueroa Iturrieta, Rosa LilianaLa obesidad es una enfermedad crónica con un creciente impacto a nivel mundial. Se caracteriza por un aumento de grasa corporal que significa un riesgo para la salud de las personas. A menudo, la obesidad se asocia a otras enfermedades crónicas, denominadas comorbilidades, siendo las más frecuentes la hipertensión arterial, las dislipidemias y la diabetes mellitus tipo 2. El riesgo de sufrir estas comorbilidades es mayor a medida que aumenta el índice de masa corporal. En este trabajo se presenta un método para identificar automáticamente la obesidad de los pacientes de un sistema de registros médicos electrónicos, utilizando como método de extracción de características el algoritmo de alineación local de Smith-Waterman. Se utilizó un conjunto de datos compuesto por 2610 registros médicos electrónicos de-identificados, obtenidos desde el Hospital Guillermo Grant Benavente de Concepción, los cuales fueron etiquetados manualmente para ser utilizados en dos problemas de clasificación. El primer problema consistió en la identificación de la presencia o ausencia de obesidad. El segundo problema de clasificación consistió en identificar los tipos de obesidad: moderada, severa, mórbida o no mencionada. Cada registro médico electrónico fue representado con el enfoque de bolsa de palabras, utilizando características extraídas en base a n-gramas y mediante el algoritmo de Smith-Waterman. Estas características fueron obtenidas a partir de la información textual disponible sobre la obesidad, sus principales comorbilidades y el índice de masa corporal. Se utilizó un enfoque jerárquico y no jerárquico para clasificar los registros médicos electrónicos, entrenando y evaluando el desempeño de una máquina de soporte vectorial y de Naïve Bayes. En general, con la máquina de soporte vectorial se obtuvo un mejor desempeño que con Naïve Bayes, gracias a la utilización de característicasItem Extracción de información en emr para la identificación de obesidad mediante el estudio de comorbilidades asociadas(Universidad de Concepción, 2015) Flores Jara, Christopher Alejandro; Figueroa Iturrieta, Rosa LilianaEl presente trabajo tuvo la finalidad de identificar obesidad y sus tipos mediante las principales enfermedades asociadas a ella, utilizando registros médicos electrónicos sin identificación de los pacientes, provenientes del Hospital Guillermo Grant Benavente de Concepción en 43 subespecialidades médicas. El problema contempló el estudio de campos estructurados y de texto libre de cada registro médico para una posterior clasificación en dos niveles. El primer nivel correspondió a la identificación de obesidad junto con otros estados nutricionales como el bajo peso, normopeso y sobrepeso. Posteriormente, se procedió a clasificar los tipos de obesidad en las categorías moderada o leve (tipo I), severa (tipo II), mórbida (tipo III) y superobesidad (tipo IV). La clasificación fue realizada en una colección de registros médicos (corpus principal) creada a partir de una recuperación de información de la base de datos, utilizando palabras claves de las categorías del primer nivel de clasificación. Posteriormente, un grupo de anotadores analizó cada registro médico recuperado para etiquetarlos de acuerdo a las clases de ambos niveles, creando un Gold Standard. Para la implementación de los clasificadores Support Vector Machine (SVM) y Naïve Bayes (NB), fue necesaria una representación numérica de cada registro del corpus principal utilizando términos relacionados a las comorbilidades de la obesidad en forma de unigrams y bigrams, a través de una matriz binaria, TF (Term Frequency) y TF-IDF (Term Frequency-Inverse Document Frequency). El más alto desempeño en el primer nivel de clasificación fue el obtenido por SVM con una exactitud igual a 89,10%, utilizando bigrams con una matriz binaria. Por su parte, NB obtuvo en el mismo nivel un porcentaje de exactitud igual a 84,49%, utilizando igual segmentación y representación de la información que SVM. Analizando la clase “obesidad” en particular, el rendimiento de SVM es superior al alcanzado por NB, obteniéndose porcentajes de exactitud iguales a 89,22% y 85,07% respectivamente, en un enfoque basado en bigrams y usando una matriz binaria. En el segundo nivel de clasificación, nuevamente SVM logró el mejor desempeño, alcanzando una exactitud igual a 93,80% mediante bigrams y las matrices TF y TF-IDF para representar la información, mientras que el mejor desempeño de NB fue una exactitud de 82,17% con el mismo tipo de segmentación, pero con una matriz binaria.