Desarrollo de método basado en Deep Learning para la extracción de entidades desde información clínica.

Jiménez Ruiz, Jaime Andrés

Please use this identifier to cite or link to this item: http://repositorio.udec.cl/jspui/handle/11594/627

Title:	Desarrollo de método basado en Deep Learning para la extracción de entidades desde información clínica.
Authors:	Figueroa Iturrieta, Rosa Liliana; supervisora de grado Cabrera V., Guillermo F.; supervisor de grado Jiménez Ruiz, Jaime Andrés
Keywords:	Aprendizaje Profundo;Ficha Clínica;Registros Médicos;Procesamiento Electrónico de Datos;Sistemas de Almacenamiento y Recuperación;Medicina;Aprendizaje de Máquina;Industria Innovación e Infraestructura;Aprendizaje Profundo;Ficha Clínica;Registros Médicos;Procesamiento Electrónico de Datos;Sistemas de Almacenamiento y Recuperación;Medicina;Aprendizaje de Máquina;Industria Innovación e Infraestructura
Issue Date:	2020
Publisher:	Universidad de Concepción.
Abstract:	La información digital está aumentando día a día producto de la digitalización de diferentes servicios. En particular, en el área de la salud, la masificación de la ficha médica electrónica se convierte en una fuente de valiosa información. En particular, para los objetivos del presente trabajo, la detección de eventos de efectos adversos o efectos secundarios por medicamentos es un tipo de información que puede ser extraída desde campos de texto libre en documentos clínicos. Una detección temprana permite la toma de decisiones clínicas rápida y sistémicas, con beneficio de la salud del paciente. El reconocimiento de entidades médicas relevantes corresponde al primer paso para la posterior extracción de eventos adversos. Esta tarea, puede ser modelada como un problema de clasificación secuencial. Desde este punto de vista del aprendizaje automático, se le ha entregado soluciones con el uso de clasificadores tradicionales y probabilísticos. El aprendizaje profundo o Deep Learning se ha presentado como una solución novedosa para este tipo de tareas, debido a sus buenos resultados al ser entrenado a partir de grandes conjuntos de datos. En este campo, la solución actual propuesta, es el uso de una red neuronal Long-Short Term Memory o LSTM (tipo de red neuronal recurrente con una celda de memoria) de tipo bidireccional (que recibe a la secuencia desde ambas direcciones) en conjunto a una capa de salida probabilística, donde la entrada a la red corresponde a las secuencias de palabras representadas por word-embeddings (que entrega una representación vectorial a la información semántica de cada palabra). En el presente trabajo se propone el desarrollo de un sistema para la extracción automática de entidades relacionadas a efectos adversos por medicamentos en textos clínicos escritos en lenguaje natural, entrenado a partir de un corpus previamente anotado, y basado en técnicas de Deep Learning. Como resultados del presente trabajo de investigación: (i) se exploró el corpus a utilizar tanto el texto como sus anotaciones, (ii) se realizó pre-procesamiento (normalización, eliminación de carácteres especiales, y tokenización) de los documentos y su preparación para el entrenamiento, (iii) se replicó y entrenó el modelo propuesto por el estado-del-arte mediante el uso de Keras, logrando un F1-score de un 79% sobre las clases de interés, (iv) se re-etiquetó el corpus mediante un algoritmo de aprendizaje no supervisado de clustering (v) se re-entrenó el modelo del estado del arte utilizando las nuevas etiquetas y se evaluó el desempeño sobre las clases etiquetadas por expertos, logrando un F1-score macro de 79%, pero un F1-score inverso de 77%, con un aumento porcentual del “Recall” sobre las clases de menor presencia en el corpus.
Description:	Tesis para optar al grado de Magíster en Ciencias de Ingeniería con mención en Ingeniería Eléctrica.
URI:	http://repositorio.udec.cl/jspui/handle/11594/627
Appears in Collections:	Ingeniería Eléctrica - Tesis Magister

Files in This Item:

File	Description	Size	Format
Tesis Desarrollo de metodo basado .Image.Marked.pdf		9,04 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License