dc.description.abstract |
El objetivo del presente estudio es diseñar un método de identificación y extracción de
tópicos que utilice como datos de entrada los abstract presentes en los documentos científicos
adquiridos de una base de datos de BioMed Central. En este documento se describen las distintas
etapas de este método que van desde el proceso de filtración de los datos hasta la implementación
del clasificador no supervisado para su posterior evaluación.
El problema de clasificación presente en éste estudio abarca principalmente el exceso de
información de la base de datos de Biomed Central, y a la vez los variados temas que abarcan el
área de investigación científica, tal como estudios en medicina, cardiología, endocrinología,
otorrinolaringología, broncopulmonar, etc. A partir de estos documentos y bajo la utilización de
distintos métodos del procesamiento del lenguaje natural, se busca identificar tópicos para conocer
de este modo el nivel de información que contiene la base de datos analizada. Las clases
contempladas para este proceso de clasificación no supervisada corresponden a las clases “lung”,
“kidney-heart” y “lung-kidney-heart”.
La metodología utilizada contempla el pre-procesamiento de los textos presentes en cada uno
de los documentos en estudio, donde se utilizaron herramientas del procesamiento del lenguaje
natural para poder normalizar y segmentar cada uno de los abstract científicos, con el objetivo de
crear dos diccionarios de palabras claves. El primer diccionario se creó utilizando la biblioteca
Topia de Python y el segundo utilizando reconocimiento de entidades (NER). Ambos diccionarios
utilizados como entrada en la implementación del modelo de extracción de tópicos.
El clasificador utilizado en este estudio es Latent Dirichlet Allocation, el cual bajo la
utilización de la biblioteca de Gensim de Python será el encargado de realizar la clasificación no
supervisada de las clases mencionadas.
Los resultados obtenidos en la extracción de tópicos para cada clase seleccionada que
contenían información acerca de pulmón, riñón y corazón nos dicen que para la clase “lung”,
utilizando ambos diccionarios, los temas en estudio tienen algún tipo de información acerca de
patologías, síntomas, casos de estudios en relación con el pulmón. Luego, para la clase “kidneyheart”,
alal
iv
contener cada tópico términos como hipertensión, acute kidney injury (aki), coronary heart disease
(chd), entre otras. Finalmente, la clase “lung-kidney-heart” entrega como resultados tópicos que
tienen algún tipo de información acerca de pulmón, riñón, corazón. Adicionalmente, se descubren
nuevos tópicos que hacen alusión a temas relacionados al sistema nervioso.
La evaluación del modelo se hizo de forma manual, tomando para cada clase 500
documentos. La medida de evaluación fue la precisión. Los resultados obtenidos por el modelo de
clasificación no supervisada, Latent Dirichlet Allocation obtiene un 72% y 55.2% de precisión para
la clase “lung”, un 75.8% y 57% de precisión para la clase “kidney-heart”, un 40.8% y 33.6% de
precisión para la clase “lung-kidney-heart”. Los valores de precisión entregan el porcentaje de casos
correctamente clasificados del total de 500 documentos evaluados según lo determinado por el
programador. Es importante destacar que la mayor cantidad de diferencias en los resultados
obtenidos en la clasificación están asociadas principalmente al tipo de segmentación utilizada en la
creación de los dos diccionarios.
Finalmente, se tiene un modelo que da como resultado una serie de documentos clasificados
a través de tópicos encontrados, esta aplicación informará al usuario de qué respuestas se asemejan
más a los documentos seleccionados por el usuario. igual que la clase anterior, los temas en estudio hacen mención al riñón y corazón, al |
es |