Extracción de información en emr para la identificación de obesidad mediante el estudio de comorbilidades asociadas

Flores Jara, Christopher Alejandro

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.udec.cl/jspui/handle/11594/1954

Título :	Extracción de información en emr para la identificación de obesidad mediante el estudio de comorbilidades asociadas
Autor :	Figueroa Iturrieta, Rosa Liliana; profesora patrocinante Flores Jara, Christopher Alejandro
Palabras clave :	Obesidad - Diagnóstico - Procesamiento de Datos;Registros Médicos - Procesamiento de Datos
Fecha de publicación :	2015
Editorial :	Universidad de Concepción.
Resumen :	El presente trabajo tuvo la finalidad de identificar obesidad y sus tipos mediante las principales enfermedades asociadas a ella, utilizando registros médicos electrónicos sin identificación de los pacientes, provenientes del Hospital Guillermo Grant Benavente de Concepción en 43 subespecialidades médicas. El problema contempló el estudio de campos estructurados y de texto libre de cada registro médico para una posterior clasificación en dos niveles. El primer nivel correspondió a la identificación de obesidad junto con otros estados nutricionales como el bajo peso, normopeso y sobrepeso. Posteriormente, se procedió a clasificar los tipos de obesidad en las categorías moderada o leve (tipo I), severa (tipo II), mórbida (tipo III) y superobesidad (tipo IV). La clasificación fue realizada en una colección de registros médicos (corpus principal) creada a partir de una recuperación de información de la base de datos, utilizando palabras claves de las categorías del primer nivel de clasificación. Posteriormente, un grupo de anotadores analizó cada registro médico recuperado para etiquetarlos de acuerdo a las clases de ambos niveles, creando un Gold Standard. Para la implementación de los clasificadores Support Vector Machine (SVM) y Naïve Bayes (NB), fue necesaria una representación numérica de cada registro del corpus principal utilizando términos relacionados a las comorbilidades de la obesidad en forma de unigrams y bigrams, a través de una matriz binaria, TF (Term Frequency) y TF-IDF (Term Frequency-Inverse Document Frequency). El más alto desempeño en el primer nivel de clasificación fue el obtenido por SVM con una exactitud igual a 89,10%, utilizando bigrams con una matriz binaria. Por su parte, NB obtuvo en el mismo nivel un porcentaje de exactitud igual a 84,49%, utilizando igual segmentación y representación de la información que SVM. Analizando la clase “obesidad” en particular, el rendimiento de SVM es superior al alcanzado por NB, obteniéndose porcentajes de exactitud iguales a 89,22% y 85,07% respectivamente, en un enfoque basado en bigrams y usando una matriz binaria. En el segundo nivel de clasificación, nuevamente SVM logró el mejor desempeño, alcanzando una exactitud igual a 93,80% mediante bigrams y las matrices TF y TF-IDF para representar la información, mientras que el mejor desempeño de NB fue una exactitud de 82,17% con el mismo tipo de segmentación, pero con una matriz binaria.
Descripción :	Ingeniero Civil Biomédico Universidad de Concepción 2015
URI :	http://repositorio.udec.cl/jspui/handle/11594/1954
metadata.dc.identifier.other:	220128
Aparece en las colecciones:	Ingeniería Eléctrica - Tesis Pregrado

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Tesis_Extraccion_de_Informacion_en_EMR_para_la_Identificacion_de_Obesidad.pdf		1,22 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons