导读
利用深度学习模型剔除不包含野生动物的空白红外相机照片可以提高生态学研究的工作效率。基于大数据集来训练建立深度学习模型可以获得很准确的照片分拣结果,但前期标记训练样本需要消耗大量人力。而基于小型数据集的模型容易将含有动物的图像识别为空照片,导致丧失发现稀有物种的机会。本文提出基于保守策略的集成学习方法,可以通过小规模训练数据集上,在尽量不遗漏动物照片的情况下最大化的自动筛出空照片。
▉ 原文信息
▉ 正文
利用红外触发相机进行物种调查具有非入侵、抗干扰和低成本等优点。但由于自然环境复杂,红外相机往往会拍摄大量的不包含动物的“空照片”。人工去除空照片工作量大、效率低。
已有研究通过构建深度卷积神经网络(DCNN)来自动识别筛除相机产生的空照片,但是训练一个高精度、低漏判率的模型往往需要百万级的训练样本。而使用小数据集训练模型,则会导致模型产生较大的漏判误差,使得本该留下的稀有动物的图像被误删,让研究者失去观测和研究的机会。因此,如何在小数据集上构建深度学习模型,将其漏判误差控制在可接受范围,并最大限度地自动删除空照片是一个迫切需要解决的问题。
大理大学东喜玛拉雅研究院肖文研究员团队和大理大学数学与计算机学院杨邓奇团队合作,基于三个主流的DCNN模型,提出了保守集成学习方法。该方法分别使用较小规模的平衡与非平衡的训练集(<25万)训练了6个DCNN模型,再采用不同的保守集成策略得到集成模型(图1)。
在此基础上,我们提出了三种空照片自动识别与去除方案,用户可根据对误差容忍度的需要自助选择方案。
案例:
本文将该集成学习方法应用在云岭滇金丝猴云南省野外科学观测研究站 (地点: 中国云南省云岭省级自然保护区拉沙山) 收集的红外照片数据集上。结果发现(图2和表1),该模型能在小规模数据集上获得较小的漏判误差,能自动移除大量的空照片。
基于最保守集成的策略,遗漏误差最低(0.70%),可以去除50%以上的空照片,与单个DCNN模型或非保守集成(投票)相比,我们的保守集成策略可以在更小数据集上构建模型,且没有遗漏稀有物种。
杨邓奇 | 大理大学数学与计算机学院,博士/副教授
研究方向:基于深度学习的图像识别
相关链接
欢迎关注“Wiley生态环境”微信公众号
EcologyChina@wiley.com