当前位置: X-MOL 学术Astron. Comput. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Galaxy morphology classification using automated machine learning
Astronomy and Computing ( IF 1.9 ) Pub Date : 2021-08-25 , DOI: 10.1016/j.ascom.2021.100492
Moonzarin Reza 1
Affiliation  

In this paper, we apply five different machine learning algorithms to classify samples into four categories — spirals, ellipticals, mergers and stars (don’t know) using data from the Sloan Digital Sky Survey to assess the feasibility of using machine learning methods for future surveys. Classifying mergers as a separate class poses a challenge as this category is easily confused with both ellipticals and spirals, and as a result, most previous studies have not included mergers as a distinct morphological class. The dataset is highly imbalanced with the number of ellipticals/spirals being much larger than the number of stars/mergers, and this is another challenge we aim to address. Starting with 62 features, we perform principal component analysis and use the 25 most significant principal components as inputs to the machine learning models. We compare our results with the Galaxy Zoo labels and obtain an overall test accuracy of 98.2% and 97.5% using Artificial Neural Network and ExtraTrees respectively. However, ExtraTrees outperforms Neural Network in classifying mergers and stars. We also perform a parameter sensitivity test to compare the relative importance of different categories of features on the model’s performance. Finally, we address the class imbalance problem and examine the effects of different sampling strategies. Our results show that the use of a balanced dataset with a large number of training samples leads to high recall values for the minority classes, and that oversampling methods lead to better performance than undersampling techniques.



中文翻译:

使用自动机器学习进行星系形态分类

在本文中,我们应用五种不同的机器学习算法将样本分为四类——螺旋、椭圆、合并和恒星(不知道),使用来自斯隆数字巡天的数据来评估未来使用机器学习方法的可行性调查。将合并分类为一个单独的类别是一个挑战,因为这一类别很容易与椭圆形和螺旋形混淆,因此,大多数先前的研究并未将合并作为一个独特的形态类别包括在内。数据集高度不平衡,椭圆/螺旋的数量远大于星/合并的数量,这是我们旨在解决的另一个挑战。从 62 个特征开始,我们执行主成分分析并使用 25 个最重要的主成分作为机器学习模型的输入。我们将我们的结果与 Galaxy Zoo 标签进行比较,并分别使用人工神经网络和 ExtraTrees 获得了 98.2% 和 97.5% 的整体测试准确率。然而,ExtraTrees 在分类合并和恒星方面优于神经网络。我们还进行了参数敏感性测试,以比较不同类别特征对模型性能的相对重要性。最后,我们解决了类别不平衡问题并检查了不同采样策略的效果。我们的结果表明,使用具有大量训练样本的平衡数据集会导致少数类的高召回值,并且过采样方法比欠采样技术具有更好的性能。5% 分别使用人工神经网络和 ExtraTrees。然而,ExtraTrees 在分类合并和恒星方面优于神经网络。我们还进行了参数敏感性测试,以比较不同类别特征对模型性能的相对重要性。最后,我们解决了类别不平衡问题并检查了不同采样策略的效果。我们的结果表明,使用具有大量训练样本的平衡数据集会导致少数类的高召回值,并且过采样方法比欠采样技术具有更好的性能。5% 分别使用人工神经网络和 ExtraTrees。然而,ExtraTrees 在分类合并和恒星方面优于神经网络。我们还进行了参数敏感性测试,以比较不同类别特征对模型性能的相对重要性。最后,我们解决了类别不平衡问题并检查了不同采样策略的效果。我们的结果表明,使用具有大量训练样本的平衡数据集会导致少数类的高召回值,并且过采样方法比欠采样技术具有更好的性能。我们还进行了参数敏感性测试,以比较不同类别特征对模型性能的相对重要性。最后,我们解决了类别不平衡问题并检查了不同采样策略的效果。我们的结果表明,使用具有大量训练样本的平衡数据集会导致少数类的高召回值,并且过采样方法比欠采样技术具有更好的性能。我们还进行了参数敏感性测试,以比较不同类别特征对模型性能的相对重要性。最后,我们解决了类别不平衡问题并检查了不同采样策略的效果。我们的结果表明,使用具有大量训练样本的平衡数据集会导致少数类的高召回值,并且过采样方法比欠采样技术具有更好的性能。

更新日期:2021-09-12
down
wechat
bug