Resumen:
La información digital está aumentando día a día producto de la digitalización de diferentes
servicios. En particular, en el área de la salud, la masificación de la ficha médica electrónica se
convierte en una fuente de valiosa información. En particular, para los objetivos del presente trabajo,
la detección de eventos de efectos adversos o efectos secundarios por medicamentos es un tipo de
información que puede ser extraída desde campos de texto libre en documentos clínicos. Una
detección temprana permite la toma de decisiones clínicas rápida y sistémicas, con beneficio de la
salud del paciente.
El reconocimiento de entidades médicas relevantes corresponde al primer paso para la
posterior extracción de eventos adversos. Esta tarea, puede ser modelada como un problema de
clasificación secuencial. Desde este punto de vista del aprendizaje automático, se le ha entregado
soluciones con el uso de clasificadores tradicionales y probabilísticos. El aprendizaje profundo o Deep
Learning se ha presentado como una solución novedosa para este tipo de tareas, debido a sus buenos
resultados al ser entrenado a partir de grandes conjuntos de datos. En este campo, la solución actual
propuesta, es el uso de una red neuronal Long-Short Term Memory o LSTM (tipo de red neuronal
recurrente con una celda de memoria) de tipo bidireccional (que recibe a la secuencia desde ambas
direcciones) en conjunto a una capa de salida probabilística, donde la entrada a la red corresponde a
las secuencias de palabras representadas por word-embeddings (que entrega una representación
vectorial a la información semántica de cada palabra). En el presente trabajo se propone el desarrollo
de un sistema para la extracción automática de entidades relacionadas a efectos adversos por
medicamentos en textos clínicos escritos en lenguaje natural, entrenado a partir de un corpus
previamente anotado, y basado en técnicas de Deep Learning.
Como resultados del presente trabajo de investigación: (i) se exploró el corpus a utilizar tanto
el texto como sus anotaciones, (ii) se realizó pre-procesamiento (normalización, eliminación de
carácteres especiales, y tokenización) de los documentos y su preparación para el entrenamiento, (iii)
se replicó y entrenó el modelo propuesto por el estado-del-arte mediante el uso de Keras, logrando un
F1-score de un 79% sobre las clases de interés, (iv) se re-etiquetó el corpus mediante un algoritmo de
aprendizaje no supervisado de clustering (v) se re-entrenó el modelo del estado del arte utilizando las
nuevas etiquetas y se evaluó el desempeño sobre las clases etiquetadas por expertos, logrando un F1-score
macro de 79%, pero un F1-score inverso de 77%, con un aumento porcentual del “Recall” sobre las clases
de menor presencia en el corpus.