The influence of training data variability on a supervised machine learning classifier for Structure from Motion (SfM) point clouds of rock slopes,Engineering Geology

当前位置： X-MOL 学术 › Eng. Geol. › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

The influence of training data variability on a supervised machine learning classifier for Structure from Motion (SfM) point clouds of rock slopes
Engineering Geology ( IF 7.4 ) Pub Date : 2021-09-03 , DOI: 10.1016/j.enggeo.2021.106344
Luke Weidner , Gabriel Walton

Supervised Machine Learning (ML) can be used to automatically interpret remote sensing data in engineering geology, with applications for rockfall and landslide characterization. However, supervised algorithms typically require very large training databases from which to learn predictive relationships, and there is little guidance on how to construct such a database in an earth science context with high temporal and spatial heterogeneity. This study builds a supervised classifier to perform basic rock slope characterization on Structure from Motion (SfM) point clouds collected under a variety of conditions. Eight datasets were collected in Colorado and Utah, USA, with multiple different sensor platforms (terrestrial and aerial), rock types, seasons, and lighting conditions, and each dataset was manually labeled to identify regions of vegetation, rock, soil, talus, and snow. A total of 2560 Random Forest models were built with different combinations of training datasets and combinations of geometric and color features. Most models were able to identify vegetation and rock with high accuracy (median F scores of 86% and 68% respectively), but performance for soil, talus, and snow was overall much poorer, and the median overall accuracy of generalized classifiers was 60%. Many characteristics of the training data were found to have significant effects on generalization accuracy, indicating that training datasets must be curated to be applicable to specific data collection parameters, seasons, lighting conditions, and geological settings. We conclude that high accuracy generalized results can be obtained, but the ML model must be carefully constructed, and its limitations acknowledged.

中文翻译：

训练数据可变性对岩石边坡运动结构 (SfM) 点云的监督机器学习分类器的影响

监督机器学习 (ML) 可用于自动解释工程地质中的遥感数据，并应用于落石和滑坡表征。然而，监督算法通常需要非常大的训练数据库来学习预测关系，并且几乎没有关于如何在具有高度时空异质性的地球科学背景下构建这样的数据库的指导。本研究构建了一个监督分类器，以对在各种条件下收集的运动结构 (SfM) 点云进行基本的岩石边坡表征。在美国科罗拉多州和犹他州收集了八个数据集，具有多个不同的传感器平台（地面和空中）、岩石类型、季节和光照条件，每个数据集都被手动标记以识别植被区域，岩石、土壤、距骨和雪。使用不同的训练数据集组合以及几何和颜色特征的组合，总共构建了 2560 个随机森林模型。大多数模型能够以高精度识别植被和岩石（中值 F 分数分别为 86% 和 68%），但对土壤、距骨和雪的性能总体上要差得多，广义分类器的总体准确率中值为 60% . 发现训练数据的许多特征对泛化精度有显着影响，这表明必须对训练数据集进行策划以适用于特定的数据收集参数、季节、光照条件和地质环境。我们得出结论，可以获得高精度的概括结果，但必须仔细构建 ML 模型，并且承认其局限性。土壤、距骨和雪。使用不同的训练数据集组合以及几何和颜色特征的组合，总共构建了 2560 个随机森林模型。大多数模型能够以高精度识别植被和岩石（中值 F 分数分别为 86% 和 68%），但对土壤、距骨和雪的性能总体上要差得多，广义分类器的总体准确率中值为 60% . 发现训练数据的许多特征对泛化精度有显着影响，这表明必须对训练数据集进行策划以适用于特定的数据收集参数、季节、光照条件和地质环境。我们得出结论，可以获得高精度的概括结果，但必须仔细构建 ML 模型，并且承认其局限性。土壤、距骨和雪。使用不同的训练数据集组合以及几何和颜色特征的组合，总共构建了 2560 个随机森林模型。大多数模型能够以高精度识别植被和岩石（中值 F 分数分别为 86% 和 68%），但对土壤、距骨和雪的性能总体上要差得多，广义分类器的总体准确率中值为 60% . 发现训练数据的许多特征对泛化精度有显着影响，这表明必须对训练数据集进行策划以适用于特定的数据收集参数、季节、光照条件和地质环境。我们得出结论，可以获得高精度的概括结果，但必须仔细构建 ML 模型，并且承认其局限性。和雪。使用不同的训练数据集组合以及几何和颜色特征的组合，总共构建了 2560 个随机森林模型。大多数模型能够以高精度识别植被和岩石（中值 F 分数分别为 86% 和 68%），但对土壤、距骨和雪的性能总体上要差得多，广义分类器的总体准确率中值为 60% . 发现训练数据的许多特征对泛化精度有显着影响，这表明必须对训练数据集进行策划以适用于特定的数据收集参数、季节、光照条件和地质环境。我们得出结论，可以获得高精度的概括结果，但必须仔细构建 ML 模型，并且承认其局限性。和雪。使用不同的训练数据集组合以及几何和颜色特征的组合，总共构建了 2560 个随机森林模型。大多数模型能够以高精度识别植被和岩石（中值 F 分数分别为 86% 和 68%），但对土壤、距骨和雪的性能总体上要差得多，广义分类器的总体准确率中值为 60% . 发现训练数据的许多特征对泛化精度有显着影响，这表明必须对训练数据集进行策划以适用于特定的数据收集参数、季节、光照条件和地质环境。我们得出结论，可以获得高精度的概括结果，但必须仔细构建 ML 模型，并且承认其局限性。使用不同的训练数据集组合以及几何和颜色特征的组合，总共构建了 2560 个随机森林模型。大多数模型能够以高精度识别植被和岩石（中值 F 分数分别为 86% 和 68%），但对土壤、距骨和雪的性能总体上要差得多，广义分类器的总体准确率中值为 60% . 发现训练数据的许多特征对泛化精度有显着影响，这表明必须对训练数据集进行策划以适用于特定的数据收集参数、季节、光照条件和地质环境。我们得出结论，可以获得高精度的概括结果，但必须仔细构建 ML 模型，并且承认其局限性。使用不同的训练数据集组合以及几何和颜色特征的组合，总共构建了 2560 个随机森林模型。大多数模型能够以高精度识别植被和岩石（中值 F 分数分别为 86% 和 68%），但对土壤、距骨和雪的性能总体上要差得多，广义分类器的总体准确率中值为 60% . 发现训练数据的许多特征对泛化精度有显着影响，这表明必须对训练数据集进行策划以适用于特定的数据收集参数、季节、光照条件和地质环境。我们得出结论，可以获得高精度的概括结果，但必须仔细构建 ML 模型，并且承认其局限性。

更新日期：2021-09-19

点击分享查看原文

点击收藏

阅读更多本刊最新论文本刊介绍/投稿指南

全部期刊列表>>