当前位置: X-MOL 学术J. Chemometr. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Different strategies for the use of random forest in NMR spectra
Journal of Chemometrics ( IF 2.4 ) Pub Date : 2020-03-02 , DOI: 10.1002/cem.3231
Betina P.O. Lovatti 1 , Márcia H.C. Nascimento 1 , Karla P. Rainha 1 , Emanuele C.S. Oliveira 1 , Álvaro C. Neto 1 , Eustáquio V.R. Castro 1 , Paulo R. Filgueiras 1
Affiliation  

Nuclear magnetic resonance (NMR) can provide a large amount of information about an analyzed sample; however, its spectra contain above 6000 variables, making it difficult for random forest (RF) applications. Reducing the size of the original dataset can minimize this problem. In this paper, we compared RF classification models obtained with full NMR spectral range and from the reduction of NMR variables, using principal component analysis (PCA) and the Fisher discriminant (FD). Then, the variables used in the construction of RF trees were analyzed and identified. Here, we used 1H and 13C NMR spectra obtained from 126 petroleum samples and values of their total acidy number (TAN), as measured by ASTM D664, ranging from 0.03 to 4.96 mg KOH· g−1, to distinguish the oil samples from the TAN values. Of two classes that resulted, the first contained 78 samples with TAN values less than, or equal to, 0.3 mg KOH· g−1, while the second contained 48 samples with TAN values higher than 0.3 mg KOH· g−1. The 1H NMR results showed that the combination of FD and RF techniques provided the best accuracy (88%). For 13C NMR data, the most accurate model was obtained by the association of PCA and RF (84%). The identification of variables used in RF allowed a better understanding of the important chemical data contained in the spectra and the relationship to TAN in petroleum.

中文翻译:

在核磁共振谱中使用随机森林的不同策略

核磁共振 (NMR) 可以提供有关分析样品的大量信息;然而,它的光谱包含超过 6000 个变量,这使得随机森林 (RF) 应用变得困难。减少原始数据集的大小可以最大限度地减少这个问题。在本文中,我们使用主成分分析 (PCA) 和 Fisher 判别式 (FD) 比较了使用完整 NMR 光谱范围和减少 NMR 变量获得的 RF 分类模型。然后,分析和识别用于构建 RF 树的变量。在这里,我们使用从 126 个石油样品获得的 1H 和 13C NMR 光谱及其总酸值 (TAN) 值,根据 ASTM D664 测量,范围为 0.03 至 4.96 mg KOH·g-1,以区分油样品与TAN 值。在产生的两个类中,第一个包含 78 个 TAN 值小于或等于 0.3 mg KOH·g-1 的样品,而第二个包含 48 个 TAN 值高于 0.3 mg KOH·g-1 的样品。1H NMR 结果表明 FD 和 RF 技术的组合提供了最佳准确度 (88%)。对于 13C NMR 数据,最准确的模型是通过 PCA 和 RF 的关联(84%)获得的。识别 RF 中使用的变量可以更好地了解光谱中包含的重要化学数据以及与石油中 TAN 的关系。最准确的模型是通过 PCA 和 RF 的关联获得的 (84%)。识别 RF 中使用的变量可以更好地了解光谱中包含的重要化学数据以及与石油中 TAN 的关系。最准确的模型是通过 PCA 和 RF 的关联获得的 (84%)。识别 RF 中使用的变量可以更好地了解光谱中包含的重要化学数据以及与石油中 TAN 的关系。
更新日期:2020-03-02
down
wechat
bug