Classification of major galaxy mergers using machine learning algorithms trained with N-body simulations.

Thumbnail Image

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad de Concepción

Abstract

Las fusiones de galaxias son eventos significativos en astronomía, impulsando la transformación morfológica de galaxias espirales a elípticas y alterando la mecánica interna del gas, lo que incrementa la formación estelar, potencia la actividad nuclear y contribuye a la formación y evolución de los agujeros negros supermasivos. Los métodos tradicionales de detección de fusiones de galaxias carecen de la efectividad y eficiencia necesarias para manejar grandes conjuntos de datos. En este estudio, realizamos una comparación sistemática de diferentes modelos de aprendizaje automático como clasificadores de fusiones mayores de galaxias y sus etapas de fusión, basándonos únicamente en información morfológica. Probamos clasificadores basados en ensambles como Random Forest (RF) y Extreme Gradient Boosting (XGBoost) y arquitecturas de deep learning como Convolutional Neural Networks (CNNs). Proponemos el uso de imágenes extraídas de simulaciones de Ncuerpos diseñadas para replicar las características morfológicas de las interacciones entre galaxias como datos de entrenamiento para los algoritmos de clasificación. Evaluamos estos modelos en tres niveles de realismo observacional: galaxias idealizadas extraídas de nuestras simulaciones, galaxias convolucionadas con una función de dispersión puntual (PSF) Gaussiana, y galaxias convolucionadas con la PSF Gaussiana y complementadas con ruido de fondo real. Encontramos que los modelos con mejor rendimiento en el conjunto de pruebas sintético con mayor realismo observacional son aquellos entrenados en datos de la misma distribución. Las CNNs logran un área bajo la curva ROC de 95.2%, mientras que XGBoost y RF obtuvieron 93.5% y 93.0%, respectivamente. A pesar de quedar en segundo lugar, XGBoost muestra mayor estabilidad que las CNNs al predecir fusiones de galaxias proporcionadas por diferentes distribuciones de datos. Probamos XGBoost en una muestra de galaxias masivas y de bajo desplazamiento al rojo (z ≤ 0.15) del Dark Energy Camera Legacy Survey - Galaxy Zoo Data Release 5, demostrando su capacidad para diferenciar pares de galaxias de manera efectiva. Concluimos que las características morfológicas son una base sólida para entrenar un clasificador de aprendizaje automático para fusiones de galaxias; sin embargo, las diferencias entre galaxias aisladas y post-fusiones recientes requieren de una física más detallada para caracterizar completamente ambas etapas.
Galaxy mergers are significant events in astronomy, driving the morphological transformation from spiral to elliptical galaxies and disrupting internal gas mechanics, increasing star formation, enhancing nuclear activity, and contributing to the formation and evolution of supermassive black holes. Traditional detection methods for galaxy mergers lack the effectiveness and efficiency required to handle large datasets. In this study, we perform a systematic comparison of different machine learning models as classifiers for major galaxy mergers and their merger stages, relying solely on morphological information. We test ensemble-based classifiers like Random Forest (RF) and Extreme Gradient Boosting (XGboost) and deep learning architectures like Convolutional Neural Networks (CNNs). We propose the implementation of images extracted from N-body simulations designed to replicate the morphological features of galaxy-galaxy interactions as training data for the classification algorithms. We evaluate the performance of these models across three levels of observational realism: highly idealized galaxies extracted from our simulations, galaxies convoluted with a Gaussian point spread function (PSF), and galaxies convoluted with the Gaussian PSF and complemented with real background noise. We found that models with the best performance on the highest observational realism synthetic test set are those trained on data from the same distribution. CNNs achieved an average area under the receiver operating characteristic curve of 95.2%, while XGBoost and RF obtained 93.5% and 93.0%, respectively. Despite being in second place, XGBoost shows greater stability than CNNs when predicting mergers from galaxies provided by different data distributions. We test XGBoost on a sample of massive, low-redshift (z ≤ 0.15) galaxies from the Dark Energy Camera Legacy Survey - Galaxy Zoo Data Release 5, showing the ability to differentiate galaxy pairs effectively. We conclude that morphological features are a solid base for training a machine learning classifier for galaxy mergers, however, the differences between isolated galaxies and recent post-mergers require more detailed physics to completely characterize both stages.

Description

Tesis presentada para optar al grado de Magíster en Astronomía

Keywords

Galaxias, Estadísticas, Algoritmos

Citation

URI

Collections