当前位置: X-MOL 学术Ecol. Inform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Effects of sample size and network depth on a deep learning approach to species distribution modeling
Ecological Informatics ( IF 5.1 ) Pub Date : 2020-08-25 , DOI: 10.1016/j.ecoinf.2020.101137
Donald J. Benkendorf , Charles P. Hawkins

Deep learning algorithms have improved predictive model performance in a variety of disciplines because of their ability to approximate complex functions. However, the amount of data and depth of the neural network needed to improve model performance is not well understood and may depend on many factors associated with the specific field of research. In ecology, ecologists rely on accurate species distribution models to inform conservation and management efforts. Here, we present the first study to systematically examine the effects of sample size and network depth on the performance of species distribution models built with artificial neural networks. We found that one or several deeper network architectures (>1 hidden layer) consistently led to slightly higher model performance than a shallow neural network on validation data when trained with a large sample size (10,000 sites). However, comparing deep network model performance with random forest model performance showed that random forest generally performed as well or slightly better. There was no clear or consistent benefit of using deep neural networks with smaller sample sizes (100 and 1000 sites). Our results suggest that, given sufficiently big data, increasing the number of hidden layers in a neural network can potentially improve species distribution model performance. As datasets become larger and high performance computing resources become more available, a deep learning approach to species distribution modeling is likely to be used more frequently.



中文翻译:

样本数量和网络深度对物种分布建模的深度学习方法的影响

深度学习算法具有逼近复杂功能的能力,因此它们在各种学科中都提高了预测模型的性能。但是,提高模型性能所需的数据量和神经网络的深度尚未得到很好的理解,并且可能取决于与特定研究领域相关的许多因素。在生态学中,生态学家依靠准确的物种分布模型来告知保护和管理工作。在这里,我们提出了第一个系统地检查样本大小和网络深度对使用人工神经网络建立的物种分布模型的性能的影响的研究。我们发现一种或几种更深层次的网络架构(> 1个隐藏层)在使用大样本量(10,000个站点)进行训练时,始终比在验证数据上的浅层神经网络略微提高了模型性能。但是,将深层网络模型的性能与随机森林模型的性能进行比较后发现,随机森林通常表现良好或稍好。使用样本数量较小(100和1000个站点)的深度神经网络并没有明显或一致的好处。我们的结果表明,给定足够大的数据,增加神经网络中的隐藏层数可以潜在地改善物种分布模型的性能。随着数据集变得越来越大,高性能计算资源越来越多,物种分布建模的深度学习方法可能会更频繁地被使用。但是,将深层网络模型的性能与随机森林模型的性能进行比较后发现,随机森林通常表现良好或稍好。使用样本数量较小(100和1000个站点)的深度神经网络并没有明显或一致的好处。我们的结果表明,给定足够大的数据,增加神经网络中的隐藏层数可以潜在地改善物种分布模型的性能。随着数据集变得越来越大,高性能计算资源越来越多,物种分布建模的深度学习方法可能会更频繁地被使用。但是,将深层网络模型的性能与随机森林模型的性能进行比较后发现,随机森林通常表现良好或稍好。使用样本数量较小(100和1000个站点)的深度神经网络并没有明显或一致的好处。我们的结果表明,给定足够大的数据,增加神经网络中的隐藏层数可以潜在地改善物种分布模型的性能。随着数据集变得越来越大,高性能计算资源越来越多,物种分布建模的深度学习方法可能会更频繁地使用。使用样本数量较小(100和1000个站点)的深度神经网络并没有明显或一致的好处。我们的结果表明,给定足够大的数据,增加神经网络中的隐藏层数可以潜在地改善物种分布模型的性能。随着数据集变得越来越大,高性能计算资源越来越多,物种分布建模的深度学习方法可能会更频繁地被使用。使用样本数量较小(100和1000个站点)的深度神经网络并没有明显或一致的好处。我们的结果表明,给定足够大的数据,增加神经网络中的隐藏层数可以潜在地改善物种分布模型的性能。随着数据集变得越来越大,高性能计算资源越来越多,物种分布建模的深度学习方法可能会更频繁地被使用。

更新日期:2020-09-25
down
wechat
bug