当前位置: X-MOL 学术Pattern Anal. Applic. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
An empirical comparison of random forest-based and other learning-to-rank algorithms
Pattern Analysis and Applications ( IF 3.9 ) Pub Date : 2019-10-28 , DOI: 10.1007/s10044-019-00856-6
Muhammad Ibrahim

Random forest (RF)-based pointwise learning-to-rank (LtR) algorithms use surrogate loss functions to minimize the ranking error. In spite of their competitive performance to other state-of-the-art LtR algorithms, these algorithms, unlike other frameworks such as boosting and neural network, have not been thoroughly investigated in the literature so far. In the first part of this study, we aim to better understand and improve the RF-based pointwise LtR algorithms. When working with such an algorithm, currently we need to choose a setting from a number of available options such as (1) classification versus regression setting, (2) using absolute relevance judgements versus mapped labels, (3) the number of features using which a split-point for data is chosen, and (4) using weighted versus un-weighted average of the predictions of multiple base learners (i.e., trees). We conduct a thorough study on these four aspects as well as on a pairwise objective function for RF-based rank-learners. Experimental results on several benchmark LtR datasets demonstrate that performance can be significantly improved by exploring these aspects. In the second part of this paper, we, guided by our investigations performed into RF-based rank-learners, conduct extensive comparison between these and state-of-the-art rank-learning algorithms. This comparison reveals some interesting and insightful findings about LtR algorithms including the finding that RF-based LtR algorithms are among the most robust techniques across datasets with diverse properties.

中文翻译:

基于随机森林和其他按等级学习算法的经验比较

基于随机森林(RF)的按点逐级学习(LtR)算法使用代理损失函数来最大程度地降低排名误差。尽管与其他最新的LtR算法相比,这些算法具有竞争优势,但与其他框架(如Boosting和神经网络)不同,这些算法迄今尚未在文献中进行深入研究。在本研究的第一部分中,我们旨在更好地理解和改进基于RF的点式LtR算法。目前,使用这种算法时,我们需要从许多可用选项中选择一个设置,例如(1)分类与回归设置,(2)使用绝对相关性判断与映射标签,(3)使用哪些特征的数量选择了数据分割点,(4)使用多个基础学习者(即树)的预测的加权平均值与非加权平均值。我们对这四个方面以及基于RF的排名学习者的成对目标函数进行了深入研究。在几个基准LtR数据集上的实验结果表明,通过探索这些方面,可以显着提高性能。在本文的第二部分中,我们以对基于RF的等级学习器的研究为指导,对这些算法与最新的等级学习算法进行了广泛的比较。这种比较揭示了有关LtR算法的一些有趣而有见地的发现,包括基于RF的LtR算法是具有不同属性的数据集中最强大的技术之一。我们对这四个方面以及基于RF的排名学习者的成对目标函数进行了深入研究。在几个基准LtR数据集上的实验结果表明,通过探索这些方面,可以显着提高性能。在本文的第二部分中,我们以对基于RF的等级学习器的研究为指导,对这些算法与最新的等级学习算法进行了广泛的比较。这种比较揭示了有关LtR算法的一些有趣而有见地的发现,包括基于RF的LtR算法是具有不同属性的数据集中最强大的技术之一。我们对这四个方面以及基于RF的排名学习者的成对目标函数进行了深入研究。在几个基准LtR数据集上的实验结果表明,通过探索这些方面,可以显着提高性能。在本文的第二部分中,我们以对基于RF的等级学习器的研究为指导,对这些算法与最新的等级学习算法进行了广泛的比较。这种比较揭示了有关LtR算法的一些有趣而有见地的发现,包括基于RF的LtR算法是具有不同属性的数据集中最强大的技术之一。在几个基准LtR数据集上的实验结果表明,通过探索这些方面,可以显着提高性能。在本文的第二部分中,我们以对基于RF的等级学习器的研究为指导,对这些算法与最新的等级学习算法进行了广泛的比较。这种比较揭示了有关LtR算法的一些有趣而有见地的发现,包括基于RF的LtR算法是具有不同属性的数据集中最强大的技术之一。在几个基准LtR数据集上的实验结果表明,通过探索这些方面,可以显着提高性能。在本文的第二部分中,我们以对基于RF的等级学习器的研究为指导,对这些算法与最新的等级学习算法进行了广泛的比较。这种比较揭示了有关LtR算法的一些有趣而有见地的发现,包括基于RF的LtR算法是具有不同属性的数据集中最强大的技术之一。
更新日期:2019-10-28
down
wechat
bug