Capacidades y evaluación de Large Language Lodels de código abierto como herramientas de aprendizaje para ciencias matemáticas y físicas.

dc.contributor.advisorNavarrete Lizama, Carlos Camiloes
dc.contributor.advisorMaldonado Trapp, Alejandra Marcelaes
dc.contributor.authorVillalobos Alfaro, Kevin Alejandro Andréses
dc.date.accessioned2024-12-02T22:17:16Z
dc.date.available2024-12-02T22:17:16Z
dc.date.issued2024
dc.descriptionTesis presentada para optar al título de Ingeniero Civil Industriales
dc.description.abstractEste estudio analiza y caracteriza las principales capacidades, estrategias (Prompting), fortalezas, limitaciones y riesgos de los grandes modelos de lenguaje (LLMs) de código abierto con miras a su utilización como herramientas de aprendizaje en ciencias matemáticas y físicas. Se realizaron experimentos en dos fases para determinar las condiciones bajo las cuales los LLMs son más efectivos para este propósito. En la primera fase, se evaluaron las capacidades de los modelos de código abierto: LLaMA3-70b y Mixtral-8x7b frente a la prueba PAES Matemática 1 (2024), utilizando 30 preguntas extraídas de la misma. Se probaron ocho combinaciones de técnicas de ingeniería de prompt y configuracion de parámetros: sin técnica específica, con Chain of Thought (CoT) Zero Shot, con 5-Shot, con CoT + 5-Shot. Para cada una de estas cuatro luego se varió la temperatura del modelo (0 y 1). La combinación más efectiva fue LLaMA3-70b con CoT y temperatura 0, alcanzando un rendimiento consistente del 93,44 % [93,23 %, 93,66 %] con un intervalo de confianza del 95 %. Los errores más comunes identificados en matemáticas fueron principalmente errores de interpretación (donde el modelo confunde información intrínseca del problema o del enunciado) y cálculos numéricos (donde el modelo se equivoca en alguna operación matemática). En la segunda fase, se utilizó la mejor combinación antes mencionada para evaluar modelos adicionales de distintos tamaños: Mixtral-8x22b (2,5 veces más grande que LLaMA3-70b) y Phi-3mini (18,7 veces más pequeño). El modelo Phi-3-mini alcanzó un rendimiento promedio del 53,11 %, mientras que Mixtral-8x22b logró un 82,78 %. Esta diferencia de rendimiento, con Mixtral-8x22b superando a su contraparte en ocho puntos porcentuales bajo la misma técnica de prompt, demuestra cómo el tamaño del modelo influye en el desempeño dentro de la misma arquitectura. Para ampliar el análisis, se evaluó LLaMA3-70b utilizando CoT y temperatura 0 en las pruebas PAES-Física-2024 y PAES-Matemática-2-2024, obteniendo rendimientos promedio del 80,00 % y 84,89 %, respectivamente. Adicionalmente, se comparó el rendimiento del modelo comercial ChatGPT-3.5-Turbo, que alcanzó un 76,78 % en la PAES-M1-2024 empleando la misma combinación de CoT y temperatura 0. Finalmente, basándose en los descubrimientos de los experimentos anteriores, se diseñó un prototipo de aplicación web usando el framework “Next.js” y que está conectada al modelo LLaMA3-70b mediante la API de Groq. Este prototipo incorpora un prompt personalizado, creado en función de las fortalezas y limitaciones detectadas en los LLMs, cuyo objetivo es incentivar a los modelos a que generen una respuesta que logre guiar a los estudiantes en la resolución de problemas sin proporcionar cálculos detallados (en su mayoría solo expresiones y fórmulas), mitigando así los errores comunes de los LLMs. Con este prototipo, se ilustra un potencial uso comercial/académico de estas tecnologías como herramientas de aprendizaje en ciencias matemáticas y físicas.es
dc.description.abstractThis study analyzes and characterizes the main capabilities, strategies (Prompting), strengths, limitations, and risks of open-source large language models (LLMs) with a view towards their use as learning tools in mathematical and physical sciences. Experiments were conducted in two phases to determine the conditions under which LLMs are most effective for this purpose. In the first phase, the capabilities of open-source models, LLaMA3-70b and Mixtral-8x7b, were evaluated against the PAES Mathematics 1 (2024) test, using 30 questions drawn from it. Eight combinations of prompt engineering techniques and parameter configurations were tested: no specific technique, Chain of Thought (CoT) Zero Shot, 5-Shot, and CoT + 5-Shot. For each of these four, the model’s temperature was varied (0 and 1). The most effective combination was LLaMA3-70b with CoT and temperature 0, achieving a consistent performance of 93.44 % [93.23 %, 93.66 %] with a 95 % confidence interval. The most common errors identified in mathematics were mainly interpretation errors (where the model confuses intrinsic information of the problem or the statement) and numerical calculations (where the model makes a mistake in a mathematical operation). In the second phase, the best combination mentioned above was used to evaluate additional models of different sizes: Mixtral-8x22b (2.5 times larger than LLaMA3-70b) and Phi-3-mini (18.7 times smaller). The Phi-3-mini model achieved an average performance of 53.11 %, while Mixtral-8x22b reached 82.78 %. This performance difference, with Mixtral-8x22b surpassing its counterpart by eight percentage points under the same prompt technique, demonstrates how model size influences performance within the same architecture. To expand the analysis, LLaMA3-70b was evaluated using CoT and temperature 0 on the PAES-Physics-2024 and PAES-Mathematics-2-2024 tests, obtaining average performances of 80.00 % and 84.89 %, respectively. Additionally, the performance of the commercial model ChatGPT-3.5-Turbo, which achieved 76.78 % on PAES-M1-2024 using the same CoT and temperature 0 combination, was compared. Finally, based on the findings from the previous experiments, a web application prototype was designed using the “Next.js” framework and connected to the LLaMA3-70b model via the Groq API. This prototype incorporates a customized prompt, created based on the strengths and limitations identified in the LLMs, aimed at encouraging the models to generate a response that guides students in solving problems without providing detailed calculations (mostly just expressions and formulas), thereby mitigating common LLM errors. With this prototype, a potential commercial/academic use of these technologies as learning tools in mathematical and physical sciences is illustrated.en
dc.description.campusConcepciónes
dc.description.departamentoDepartamento de Ingeniería Industriales
dc.description.facultadFacultad de Ingenieríaes
dc.identifier.urihttps://repositorio.udec.cl/handle/11594/11671
dc.language.isoeses
dc.publisherUniversidad de Concepciónes
dc.rightsCC BY-NC-ND 4.0 DEED Attribution-NonCommercial-NoDerivs 4.0 Internationalen
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAprendizaje de máquinaes
dc.subjectSoftware computacional Desarrolloes
dc.subjectCiencia Matemáticases
dc.titleCapacidades y evaluación de Large Language Lodels de código abierto como herramientas de aprendizaje para ciencias matemáticas y físicas.es
dc.typeThesisen

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Villalobos_a_k_2024_ICIN.pdf
Size:
2.69 MB
Format:
Adobe Portable Document Format

Collections