Please use this identifier to cite or link to this item: http://repositorio.udec.cl/jspui/handle/11594/1952
Title: Clasificación de artículos científicos
Authors: Figueroa Iturrieta, Rosa Liliana , profesora patrocinante
Andrade Alvarado, Vanessa del Rosario
Keywords: Procesamiento Electrónico de Datos
Issue Date: 2015
Publisher: Universidad de Concepción . Facultad de Ingeniería. Departamento de Ingeniería Eléctrica
Abstract: El objetivo del presente estudio es diseñar un método de identificación y extracción de tópicos que utilice como datos de entrada los abstract presentes en los documentos científicos adquiridos de una base de datos de BioMed Central. En este documento se describen las distintas etapas de este método que van desde el proceso de filtración de los datos hasta la implementación del clasificador no supervisado para su posterior evaluación. El problema de clasificación presente en éste estudio abarca principalmente el exceso de información de la base de datos de Biomed Central, y a la vez los variados temas que abarcan el área de investigación científica, tal como estudios en medicina, cardiología, endocrinología, otorrinolaringología, broncopulmonar, etc. A partir de estos documentos y bajo la utilización de distintos métodos del procesamiento del lenguaje natural, se busca identificar tópicos para conocer de este modo el nivel de información que contiene la base de datos analizada. Las clases contempladas para este proceso de clasificación no supervisada corresponden a las clases “lung”, “kidney-heart” y “lung-kidney-heart”. La metodología utilizada contempla el pre-procesamiento de los textos presentes en cada uno de los documentos en estudio, donde se utilizaron herramientas del procesamiento del lenguaje natural para poder normalizar y segmentar cada uno de los abstract científicos, con el objetivo de crear dos diccionarios de palabras claves. El primer diccionario se creó utilizando la biblioteca Topia de Python y el segundo utilizando reconocimiento de entidades (NER). Ambos diccionarios utilizados como entrada en la implementación del modelo de extracción de tópicos. El clasificador utilizado en este estudio es Latent Dirichlet Allocation, el cual bajo la utilización de la biblioteca de Gensim de Python será el encargado de realizar la clasificación no supervisada de las clases mencionadas. Los resultados obtenidos en la extracción de tópicos para cada clase seleccionada que contenían información acerca de pulmón, riñón y corazón nos dicen que para la clase “lung”, utilizando ambos diccionarios, los temas en estudio tienen algún tipo de información acerca de patologías, síntomas, casos de estudios en relación con el pulmón. Luego, para la clase “kidneyheart”, alal iv contener cada tópico términos como hipertensión, acute kidney injury (aki), coronary heart disease (chd), entre otras. Finalmente, la clase “lung-kidney-heart” entrega como resultados tópicos que tienen algún tipo de información acerca de pulmón, riñón, corazón. Adicionalmente, se descubren nuevos tópicos que hacen alusión a temas relacionados al sistema nervioso. La evaluación del modelo se hizo de forma manual, tomando para cada clase 500 documentos. La medida de evaluación fue la precisión. Los resultados obtenidos por el modelo de clasificación no supervisada, Latent Dirichlet Allocation obtiene un 72% y 55.2% de precisión para la clase “lung”, un 75.8% y 57% de precisión para la clase “kidney-heart”, un 40.8% y 33.6% de precisión para la clase “lung-kidney-heart”. Los valores de precisión entregan el porcentaje de casos correctamente clasificados del total de 500 documentos evaluados según lo determinado por el programador. Es importante destacar que la mayor cantidad de diferencias en los resultados obtenidos en la clasificación están asociadas principalmente al tipo de segmentación utilizada en la creación de los dos diccionarios. Finalmente, se tiene un modelo que da como resultado una serie de documentos clasificados a través de tópicos encontrados, esta aplicación informará al usuario de qué respuestas se asemejan más a los documentos seleccionados por el usuario. igual que la clase anterior, los temas en estudio hacen mención al riñón y corazón, al
Description: Ingeniero Civil Biomédico Universidad de Concepción 2015
URI: http://repositorio.udec.cl/jspui/handle/11594/1952
metadata.dc.identifier.other: 220620
Appears in Collections:Ingeniería Eléctrica - Tesis Pregrado

Files in This Item:
File Description SizeFormat 
Tesis_Clasificacion_de_Articulos_cientificos.pdf1,07 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.