当前位置: X-MOL 学术Chemometr. Intell. Lab. Systems › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Investigating the need for preprocessing of near-infrared spectroscopic data as a function of sample size
Chemometrics and Intelligent Laboratory Systems ( IF 3.9 ) Pub Date : 2020-09-01 , DOI: 10.1016/j.chemolab.2020.104105
Mark Schoot , Christiaan Kapper , Geert H. van Kollenburg , Geert J. Postma , Gijs van Kessel , Lutgarde M.C. Buydens , Jeroen J. Jansen

Abstract Preprocessing of near-infrared (NIR) spectra is an essential part of multivariate calibration. It mainly aims to remove artefacts caused during measurement to improve prediction performance or interpretation. However, preprocessing can have undesired side-effects. Additionally, calibration algorithms can learn to deal with artefacts by themselves when enough samples are available. This may influence the effect preprocessing has on prediction performance when the calibration dataset size increases. In this paper we investigate the interaction between the size of the calibration data and preprocessing for NIR calibrations for several datasets. Results show that extending the calibration data with more samples improves prediction performance, regardless of the preprocessing strategy. Although prediction performance almost always benefits from preprocessing, extending the calibration data can reduce the effect of preprocessing on prediction performance. This means the optimal preprocessing strategy may change as a function of the number of samples. It is demonstrated that using a Design of Experiments (DoE) approach to determine the optimal preprocessing strategy leads to equal or better prediction performance for all calibration set sizes compared to the case of not preprocessing at all. Preprocessing is most valuable for small calibration sets, but as the calibration set increases can become obsolete or even harmful. Therefore, we recommend to always evaluate the effect of a preprocessing strategy before making or updating calibration models.

中文翻译:

研究对近红外光谱数据进行预处理作为样本大小的函数的必要性

摘要 近红外 (NIR) 光谱的预处理是多元校准的重要组成部分。它主要旨在消除测量过程中引起的伪影,以提高预测性能或解释。但是,预处理可能会产生不希望的副作用。此外,当有足够的样本可用时,校准算法可以学会自己处理人工制品。当校准数据集大小增加时,这可能会影响预处理对预测性能的影响。在本文中,我们研究了校准数据的大小与几个数据集的 NIR 校准预处理之间的相互作用。结果表明,无论预处理策略如何,使用更多样本扩展校准数据都可以提高预测性能。尽管预测性能几乎总是受益于预处理,但扩展校准数据可以减少预处理对预测性能的影响。这意味着最佳预处理策略可能会随着样本数量的变化而变化。已经证明,与根本不进行预处理的情况相比,使用实验设计 (DoE) 方法来确定最佳预处理策略会导致所有校准集大小的预测性能相同或更好。预处理对于小型校准集最有价值,但随着校准集的增加,可能会变得过时甚至有害。因此,我们建议在制作或更新校准模型之前始终评估预处理策略的效果。扩展校准数据可以减少预处理对预测性能的影响。这意味着最佳预处理策略可能会随着样本数量的变化而变化。已经证明,与根本不进行预处理的情况相比,使用实验设计 (DoE) 方法来确定最佳预处理策略会导致所有校准集大小的预测性能相同或更好。预处理对于小型校准集最有价值,但随着校准集的增加,可能会变得过时甚至有害。因此,我们建议在制作或更新校准模型之前始终评估预处理策略的效果。扩展校准数据可以减少预处理对预测性能的影响。这意味着最佳预处理策略可能会随着样本数量的变化而变化。已经证明,与根本不进行预处理的情况相比,使用实验设计 (DoE) 方法来确定最佳预处理策略会导致所有校准集大小的预测性能相同或更好。预处理对于小型校准集最有价值,但随着校准集的增加,可能会变得过时甚至有害。因此,我们建议在制作或更新校准模型之前始终评估预处理策略的效果。已经证明,与根本不进行预处理的情况相比,使用实验设计 (DoE) 方法来确定最佳预处理策略会导致所有校准集大小的预测性能相同或更好。预处理对于小型校准集最有价值,但随着校准集的增加,可能会变得过时甚至有害。因此,我们建议在制作或更新校准模型之前始终评估预处理策略的效果。已经证明,与根本不进行预处理的情况相比,使用实验设计 (DoE) 方法来确定最佳预处理策略会导致所有校准集大小的预测性能相同或更好。预处理对于小型校准集最有价值,但随着校准集的增加,可能会变得过时甚至有害。因此,我们建议在制作或更新校准模型之前始终评估预处理策略的效果。
更新日期:2020-09-01
down
wechat
bug