Entrenamiento de un Modelo de Lenguaje Natural para clasificar proyectos evaluados en el programa Capital Semilla Emprende de Sercotec.

Loading...
Thumbnail Image

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad de Concepción

Abstract

El Servicio de Cooperación Técnica (Sercotec) es un organismo dependiente del Ministerio de Economía que apoya a pequeños emprendedores a través de programas concursables. Actualmente, Sercotec enfrenta una gran carga al evaluar las postulaciones a sus programas, especialmente en el Programa Capital Semilla Emprende (PCSE). Esta evaluación, que está a cargo de funcionarios, se ve ralentizada por la gran cantidad de postulaciones. Para abordar la problemática de Sercotec, se propone un modelo basado en aprendizaje automático para la revisión y evaluación de postulaciones. Este modelo emplea un algoritmo que recopila los datos de las postulaciones, evalúa las respuestas correspondientes al Modelo Canvas en el formulario, y clasifica el texto asignando una calificación acorde a la calidad de cada respuesta. El modelo es entrenado con datos reales de Sercotec sobre la base de BETO bajo hiperparámetros ajustados por el optimizador Optuna, donde BETO es una versión en español del modelo de lenguaje pre-entrenado BERT. Dicho modelo se valida con el método de Matriz de Confusión. El modelo está restringido a las nueve secciones clásicas del Canvas, excluyendo Sustentabilidad, Coherencia global de respuestas y otros elementos del formulario de postulación. Además, enfrenta desafíos relacionados con el procesamiento de texto debido a errores en los datos reales y está limitado por la capacidad computacional disponible, lo que restringe los hiperparámetros y el volumen de datos utilizados en el entrenamiento. Una futura integración de este modelo debería agilizar la evaluación y, en consecuencia, la selección de solicitudes para PCSE, haciéndolo un proceso más eficiente en términos de tiempo y esfuerzo, al mismo tiempo que se elimina el factor de error humano en esta tarea.
The Technical Cooperation Service (Sercotec) is an agency dependent on the Ministry of Economy that supports small entrepreneurs through competitive programs. Currently, Sercotec faces a great burden when evaluating applications for its programs, especially in the Capital Semilla Emprende Program (PCSE). This evaluation, which is carried out by officials, is slowed down by the large number of applications. To address Sercotec's problem, a model based on machine learning is proposed for the review and evaluation of applications. This model uses an algorithm that collects data from applications, evaluates the responses corresponding to the Canvas Model in the form, and classifies the text by assigning a rating according to the quality of each response. The model is trained with real data from Sercotec based on BETO under hyperparameters adjusted by the Optuna optimizer, where BETO is a Spanish version of the BERT pre-trained language model. This model is validated with the Confusion Matrix method. The model is restricted to the nine classic Canvas sections, excluding Sustainability, Global Response Consistency, and other elements of the application form. In addition, it faces challenges related to text processing due to errors in the real data and is limited by the available computational capacity, which restricts the hyperparameters and volume of data used in training. A future integration of this model should streamline the evaluation and, consequently, the selection of applications for PCSE, making it a more efficient process in terms of time and effort, while eliminating the human error factor in this task.

Description

Tesis presentada para optar al título de Ingeniero Civil Industrial

Keywords

Procesamiento del lenguaje natural (Ciencia de la computación), Evaluación de proyectos, Clasificación

Citation

URI

Collections