当前位置: X-MOL 学术J. Classif. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Improved Outcome Prediction Across Data Sources Through Robust Parameter Tuning
Journal of Classification ( IF 2 ) Pub Date : 2020-07-06 , DOI: 10.1007/s00357-020-09368-z
Nicole Ellenbach , Anne-Laure Boulesteix , Bernd Bischl , Kristian Unger , Roman Hornung

In many application areas, prediction rules trained based on high-dimensional data are subsequently applied to make predictions for observations from other sources, but they do not always perform well in this setting. This is because data sets from different sources can feature (slightly) differing distributions, even if they come from similar populations. In the context of high-dimensional data and beyond, most prediction methods involve one or several tuning parameters. Their values are commonly chosen by maximizing the cross-validated prediction performance on the training data. This procedure, however, implicitly presumes that the data to which the prediction rule will be ultimately applied, follow the same distribution as the training data. If this is not the case, less complex prediction rules that slightly underfit the training data may be preferable. Indeed, a tuning parameter does not only control the degree of adjustment of a prediction rule to the training data, but also, more generally, the degree of adjustment to the distribution of the training data. On the basis of this idea, in this paper we compare various approaches including new procedures for choosing tuning parameter values that lead to better generalizing prediction rules than those obtained based on cross-validation. Most of these approaches use an external validation data set. In our extensive comparison study based on a large collection of 15 transcriptomic data sets, tuning on external data and robust tuning with a tuned robustness parameter are the two approaches leading to better generalizing prediction rules.

中文翻译:

通过稳健的参数调整改进跨数据源的结果预测

在许多应用领域,基于高维数据训练的预测规则随后被应用于对来自其他来源的观察进行预测,但它们在这种情况下并不总是表现良好。这是因为来自不同来源的数据集可能具有(略微)不同的分布特征,即使它们来自相似的人群。在高维数据及其他方面,大多数预测方法都涉及一个或多个调整参数。通常通过最大化训练数据的交叉验证预测性能来选择它们的值。然而,这个过程隐含地假定预测规则最终将应用到的数据遵循与训练数据相同的分布。如果不是这种情况,不太适合训练数据的不太复杂的预测规则可能更可取。实际上,调整参数不仅控制预测规则对训练数据的调整程度,而且更一般地,控制对训练数据分布的调整程度。基于这个想法,在本文中,我们比较了各种方法,包括用于选择调整参数值的新程序,这些方法比基于交叉验证获得的预测规则更好地泛化。大多数这些方法使用外部验证数据集。在我们基于 15 个转录组数据集的大量比较研究中,调整外部数据和使用调整的稳健性参数进行稳健调整是导致更好地概括预测规则的两种方法。调整参数不仅控制预测规则对训练数据的调整程度,更一般地,控制对训练数据分布的调整程度。基于这个想法,在本文中,我们比较了各种方法,包括用于选择调整参数值的新程序,这些方法比基于交叉验证获得的预测规则更好地泛化。大多数这些方法使用外部验证数据集。在我们基于 15 个转录组数据集的大量比较研究中,调整外部数据和使用调整的稳健性参数进行稳健调整是导致更好地概括预测规则的两种方法。调整参数不仅控制预测规则对训练数据的调整程度,更一般地,控制对训练数据分布的调整程度。基于这个想法,在本文中,我们比较了各种方法,包括用于选择调整参数值的新程序,这些方法比基于交叉验证获得的预测规则更好地泛化。大多数这些方法使用外部验证数据集。在我们基于 15 个转录组数据集的大量比较研究中,调整外部数据和使用调整的稳健性参数进行稳健调整是导致更好地概括预测规则的两种方法。更一般地说,是对训练数据分布的调整程度。基于这个想法,在本文中,我们比较了各种方法,包括用于选择调整参数值的新程序,这些方法比基于交叉验证获得的预测规则更好地泛化。大多数这些方法使用外部验证数据集。在我们基于 15 个转录组数据集的大量比较研究中,调整外部数据和使用调整的稳健性参数进行稳健调整是导致更好地概括预测规则的两种方法。更一般地说,是对训练数据分布的调整程度。基于这个想法,在本文中,我们比较了各种方法,包括选择调整参数值的新程序,这些方法比基于交叉验证获得的预测规则更好地泛化。大多数这些方法使用外部验证数据集。在我们基于 15 个转录组数据集的大量比较研究中,调整外部数据和使用调整后的稳健性参数进行稳健调整是导致更好地概括预测规则的两种方法。在本文中,我们比较了各种方法,包括用于选择调整参数值的新程序,这些方法比基于交叉验证获得的预测规则具有更好的泛化性。大多数这些方法使用外部验证数据集。在我们基于 15 个转录组数据集的大量比较研究中,调整外部数据和使用调整的稳健性参数进行稳健调整是导致更好地概括预测规则的两种方法。在本文中,我们比较了各种方法,包括用于选择调整参数值的新程序,这些方法比基于交叉验证获得的预测规则具有更好的泛化性。大多数这些方法使用外部验证数据集。在我们基于 15 个转录组数据集的大量比较研究中,调整外部数据和使用调整的稳健性参数进行稳健调整是导致更好地概括预测规则的两种方法。
更新日期:2020-07-06
down
wechat
bug