Please use this identifier to cite or link to this item: http://repositorio.udec.cl/jspui/handle/11594/1954
Title: Extracción de información en emr para la identificación de obesidad mediante el estudio de comorbilidades asociadas
Authors: Figueroa Iturrieta, Rosa Liliana , profesora patrocinante
Flores Jara, Christopher Alejandro
Keywords: Obesidad - Diagnóstico - Procesamiento de Datos;Registros Médicos - Procesamiento de Datos
Issue Date: 2015
Publisher: Universidad de Concepción .Facultad de Ingeniería. Departamento de Ingeniería Eléctrica
Abstract: El presente trabajo tuvo la finalidad de identificar obesidad y sus tipos mediante las principales enfermedades asociadas a ella, utilizando registros médicos electrónicos sin identificación de los pacientes, provenientes del Hospital Guillermo Grant Benavente de Concepción en 43 subespecialidades médicas. El problema contempló el estudio de campos estructurados y de texto libre de cada registro médico para una posterior clasificación en dos niveles. El primer nivel correspondió a la identificación de obesidad junto con otros estados nutricionales como el bajo peso, normopeso y sobrepeso. Posteriormente, se procedió a clasificar los tipos de obesidad en las categorías moderada o leve (tipo I), severa (tipo II), mórbida (tipo III) y superobesidad (tipo IV). La clasificación fue realizada en una colección de registros médicos (corpus principal) creada a partir de una recuperación de información de la base de datos, utilizando palabras claves de las categorías del primer nivel de clasificación. Posteriormente, un grupo de anotadores analizó cada registro médico recuperado para etiquetarlos de acuerdo a las clases de ambos niveles, creando un Gold Standard. Para la implementación de los clasificadores Support Vector Machine (SVM) y Naïve Bayes (NB), fue necesaria una representación numérica de cada registro del corpus principal utilizando términos relacionados a las comorbilidades de la obesidad en forma de unigrams y bigrams, a través de una matriz binaria, TF (Term Frequency) y TF-IDF (Term Frequency-Inverse Document Frequency). El más alto desempeño en el primer nivel de clasificación fue el obtenido por SVM con una exactitud igual a 89,10%, utilizando bigrams con una matriz binaria. Por su parte, NB obtuvo en el mismo nivel un porcentaje de exactitud igual a 84,49%, utilizando igual segmentación y representación de la información que SVM. Analizando la clase “obesidad” en particular, el rendimiento de SVM es superior al alcanzado por NB, obteniéndose porcentajes de exactitud iguales a 89,22% y 85,07% respectivamente, en un enfoque basado en bigrams y usando una matriz binaria. En el segundo nivel de clasificación, nuevamente SVM logró el mejor desempeño, alcanzando una exactitud igual a 93,80% mediante bigrams y las matrices TF y TF-IDF para representar la información, mientras que el mejor desempeño de NB fue una exactitud de 82,17% con el mismo tipo de segmentación, pero con una matriz binaria.
Description: Ingeniero Civil Biomédico Universidad de Concepción 2015
URI: http://repositorio.udec.cl/jspui/handle/11594/1954
metadata.dc.identifier.other: 220128
Appears in Collections:Ingeniería Eléctrica - Tesis Pregrado

Files in This Item:
File Description SizeFormat 
Tesis_Extraccion_de_Informacion_en_EMR_para_la_Identificacion_de_Obesidad.pdf1,22 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.