Classification of major galaxy mergers using machine learning algorithms trained with N-body simulations.

Saavedra Bastidas, Jorge Eduardo

Classification of major galaxy mergers using machine learning algorithms trained with N-body simulations.

dc.contributor.advisor	Schleicher, Dominik	es
dc.contributor.author	Saavedra Bastidas, Jorge Eduardo	es
dc.date.accessioned	2024-10-24T18:14:54Z
dc.date.available	2024-10-24T18:14:54Z
dc.date.issued	2024
dc.description	Tesis presentada para optar al grado de Magíster en Astronomía.	es
dc.description.abstract	Galaxy mergers are significant events in astronomy, driving the morphological transformation from spiral to elliptical galaxies and disrupting internal gas mechanics, increasing star formation, enhancing nuclear activity, and contributing to the formation and evolution of supermassive black holes. Traditional detection methods for galaxy mergers lack the effectiveness and efficiency required to handle large datasets. In this study, we perform a systematic comparison of different machine learning models as classifiers for major galaxy mergers and their merger stages, relying solely on morphological information. We test ensemble-based classifiers like Random Forest (RF) and Extreme Gradient Boosting (XGboost) and deep learning architectures like Convolutional Neural Networks (CNNs). We propose the implementation of images extracted from N-body simulations designed to replicate the morphological features of galaxy-galaxy interactions as training data for the classification algorithms. We evaluate the performance of these models across three levels of observational realism: highly idealized galaxies extracted from our simulations, galaxies convoluted with a Gaussian point spread function (PSF), and galaxies convoluted with the Gaussian PSF and complemented with real background noise. We found that models with the best performance on the highest observational realism synthetic test set are those trained on data from the same distribution. CNNs achieved an average area under the receiver operating characteristic curve of 95.2%, while XGBoost and RF obtained 93.5% and 93.0%, respectively. Despite being in second place, XGBoost shows greater stability than CNNs when predicting mergers from galaxies provided by different data distributions. We test XGBoost on a sample of massive, low-redshift (z ≤ 0.15) galaxies from the Dark Energy Camera Legacy Survey - Galaxy Zoo Data Release 5, showing the ability to differentiate galaxy pairs effectively. We conclude that morphological features are a solid base for training a machine learning classifier for galaxy mergers, however, the differences between isolated galaxies and recent post-mergers require more detailed physics to completely characterize both stages.	en
dc.description.abstract	Las fusiones de galaxias son eventos significativos en astronomía, impulsando la transformación morfológica de galaxias espirales a elípticas y alterando la mecánica interna del gas, lo que incrementa la formación estelar, potencia la actividad nuclear y contribuye a la formación y evolución de los agujeros negros supermasivos. Los métodos tradicionales de detección de fusiones de galaxias carecen de la efectividad y eficiencia necesarias para manejar grandes conjuntos de datos. En este estudio, realizamos una comparación sistemática de diferentes modelos de aprendizaje automático como clasificadores de fusiones mayores de galaxias y sus etapas de fusión, basándonos únicamente en información morfológica. Probamos clasificadores basados en ensambles como Random Forest (RF) y Extreme Gradient Boosting (XGBoost) y arquitecturas de deep learning como Convolutional Neural Networks (CNNs). Proponemos el uso de imágenes extraídas de simulaciones de Ncuerpos diseñadas para replicar las características morfológicas de las interacciones entre galaxias como datos de entrenamiento para los algoritmos de clasificación. Evaluamos estos modelos en tres niveles de realismo observacional: galaxias idealizadas extraídas de nuestras simulaciones, galaxias convolucionadas con una función de dispersión puntual (PSF) Gaussiana, y galaxias convolucionadas con la PSF Gaussiana y complementadas con ruido de fondo real. Encontramos que los modelos con mejor rendimiento en el conjunto de pruebas sintético con mayor realismo observacional son aquellos entrenados en datos de la misma distribución. Las CNNs logran un área bajo la curva ROC de 95.2%, mientras que XGBoost y RF obtuvieron 93.5% y 93.0%, respectivamente. A pesar de quedar en segundo lugar, XGBoost muestra mayor estabilidad que las CNNs al predecir fusiones de galaxias proporcionadas por diferentes distribuciones de datos. Probamos XGBoost en una muestra de galaxias masivas y de bajo desplazamiento al rojo (z ≤ 0.15) del Dark Energy Camera Legacy Survey - Galaxy Zoo Data Release 5, demostrando su capacidad para diferenciar pares de galaxias de manera efectiva. Concluimos que las características morfológicas son una base sólida para entrenar un clasificador de aprendizaje automático para fusiones de galaxias; sin embargo, las diferencias entre galaxias aisladas y post-fusiones recientes requieren de una física más detallada para caracterizar completamente ambas etapas.	es
dc.description.campus	Concepción	es
dc.description.departamento	Departamento de Astronomía	es
dc.description.facultad	Facultad de Ciencias Físicas y Matemáticas	es
dc.description.sponsorship	ANID, Proyecto ANID BASAL FB21003 (Centro de Astrofísica y Teorías Afines; CATA)	es
dc.description.sponsorship	ANID, Proyecto ANID QUIMAL 220002	es
dc.identifier.doi	https://doi.org/10.29393/TMUdeC-96SJ1CM96
dc.identifier.uri	https://repositorio.udec.cl/handle/11594/5724
dc.language.iso	en	en
dc.publisher	Universidad de Concepción	es
dc.rights	CC BY-NC-ND 4.0 DEED Attribution-NonCommercial-NoDerivs 4.0 International	en
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Galaxias	es
dc.subject	Estadísticas	es
dc.subject	Algoritmos	es
dc.title	Classification of major galaxy mergers using machine learning algorithms trained with N-body simulations.	es
dc.type	Thesis	en

Files

Original bundle

Now showing 1 - 1 of 1

Name:: saavedra_b_j_2024_MGAS.pdf
Size:: 88.54 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed to upon submission
Description:

Download

Collections

Tesis Magíster