Clasificación de artículos científicos

Andrade Alvarado, Vanessa del Rosario

dc.contributor.advisor	Figueroa Iturrieta, Rosa Liliana; profesora patrocinante	es
dc.contributor.author	Andrade Alvarado, Vanessa del Rosario	es
dc.date.accessioned	2016-09-06T17:32:04Z
dc.date.accessioned	2019-12-13T12:30:51Z
dc.date.available	2016-09-06T17:32:04Z
dc.date.available	2019-12-13T12:30:51Z
dc.date.issued	2015
dc.identifier.other	220620
dc.identifier.uri	http://repositorio.udec.cl/jspui/handle/11594/1952
dc.description	Ingeniero Civil Biomédico Universidad de Concepción 2015	es
dc.description.abstract	El objetivo del presente estudio es diseñar un método de identificación y extracción de tópicos que utilice como datos de entrada los abstract presentes en los documentos científicos adquiridos de una base de datos de BioMed Central. En este documento se describen las distintas etapas de este método que van desde el proceso de filtración de los datos hasta la implementación del clasificador no supervisado para su posterior evaluación. El problema de clasificación presente en éste estudio abarca principalmente el exceso de información de la base de datos de Biomed Central, y a la vez los variados temas que abarcan el área de investigación científica, tal como estudios en medicina, cardiología, endocrinología, otorrinolaringología, broncopulmonar, etc. A partir de estos documentos y bajo la utilización de distintos métodos del procesamiento del lenguaje natural, se busca identificar tópicos para conocer de este modo el nivel de información que contiene la base de datos analizada. Las clases contempladas para este proceso de clasificación no supervisada corresponden a las clases “lung”, “kidney-heart” y “lung-kidney-heart”. La metodología utilizada contempla el pre-procesamiento de los textos presentes en cada uno de los documentos en estudio, donde se utilizaron herramientas del procesamiento del lenguaje natural para poder normalizar y segmentar cada uno de los abstract científicos, con el objetivo de crear dos diccionarios de palabras claves. El primer diccionario se creó utilizando la biblioteca Topia de Python y el segundo utilizando reconocimiento de entidades (NER). Ambos diccionarios utilizados como entrada en la implementación del modelo de extracción de tópicos. El clasificador utilizado en este estudio es Latent Dirichlet Allocation, el cual bajo la utilización de la biblioteca de Gensim de Python será el encargado de realizar la clasificación no supervisada de las clases mencionadas. Los resultados obtenidos en la extracción de tópicos para cada clase seleccionada que contenían información acerca de pulmón, riñón y corazón nos dicen que para la clase “lung”, utilizando ambos diccionarios, los temas en estudio tienen algún tipo de información acerca de patologías, síntomas, casos de estudios en relación con el pulmón. Luego, para la clase “kidneyheart”, alal iv contener cada tópico términos como hipertensión, acute kidney injury (aki), coronary heart disease (chd), entre otras. Finalmente, la clase “lung-kidney-heart” entrega como resultados tópicos que tienen algún tipo de información acerca de pulmón, riñón, corazón. Adicionalmente, se descubren nuevos tópicos que hacen alusión a temas relacionados al sistema nervioso. La evaluación del modelo se hizo de forma manual, tomando para cada clase 500 documentos. La medida de evaluación fue la precisión. Los resultados obtenidos por el modelo de clasificación no supervisada, Latent Dirichlet Allocation obtiene un 72% y 55.2% de precisión para la clase “lung”, un 75.8% y 57% de precisión para la clase “kidney-heart”, un 40.8% y 33.6% de precisión para la clase “lung-kidney-heart”. Los valores de precisión entregan el porcentaje de casos correctamente clasificados del total de 500 documentos evaluados según lo determinado por el programador. Es importante destacar que la mayor cantidad de diferencias en los resultados obtenidos en la clasificación están asociadas principalmente al tipo de segmentación utilizada en la creación de los dos diccionarios. Finalmente, se tiene un modelo que da como resultado una serie de documentos clasificados a través de tópicos encontrados, esta aplicación informará al usuario de qué respuestas se asemejan más a los documentos seleccionados por el usuario. igual que la clase anterior, los temas en estudio hacen mención al riñón y corazón, al	es
dc.language.iso	spa	es
dc.publisher	Universidad de Concepción.	es
dc.rights	Creative Commoms CC BY NC ND 4.0 internacional (Atribución-NoComercial-SinDerivadas 4.0 Internacional)
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject	Procesamiento Electrónico de Datos	es
dc.title	Clasificación de artículos científicos	es
dc.type	Tesis	es
dc.description.facultad	Departamento de Ingeniería Eléctrica	es
dc.description.departamento	Departamento de Ingeniería Eléctrica.	es

Files in this item

Name: Tesis_Clasificaci ...

Size: 1.047Mb

Format: PDF

View/Open

This item appears in the following Collection(s)

Ingeniería Eléctrica - Tesis Pregrado

Show simple item record

Creative Commoms CC BY NC ND 4.0 internacional (Atribución-NoComercial-SinDerivadas 4.0 Internacional)

Except where otherwise noted, this item's license is described as Creative Commoms CC BY NC ND 4.0 internacional (Atribución-NoComercial-SinDerivadas 4.0 Internacional)

Clasificación de artículos científicos

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account