当前位置: X-MOL 学术arXiv.cs.LG › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
次线性时间复杂度的线性Bandit算法
arXiv - CS - Machine Learning Pub Date : 2021-03-03 , DOI: arxiv-2103.02729
Shuo Yang, Tongzheng Ren, Sanjay Shakkottai, Eric Price, Inderjit S. Dhillon, Sujay Sanghavi

我们建议加速现有的线性强盗算法,以在臂数$ K $中实现每步时间复杂度为亚线性。亚线性复杂度的关键是要认识到,许多线性强盗算法中的手臂选择会减少到最大内积搜索(MIPS)问题。相应地,我们提出了一种算法,该算法可以近似解决一系列自适应查询的MIPS问题,从而产生接近线性的预处理时间复杂度和次线性查询时间复杂度。使用提出的MIPS求解器作为子例程,我们提出了两种实现亚线性时间复杂度的强盗算法(一种基于UCB,另一种基于TS)。我们明确描述了每步时间复杂度和遗憾之间的权衡,并表明我们提出的算法对于$ \ alpha(T)> 0 $和$ \ widetilde O(\ sqrt {T} )$感到遗憾,其中$ T $是时间范围。此外,我们提出了折衷的理论极限,它为每步时间复杂度提供了一个下限。我们还将讨论近似MIPS算法的其他选择以及对线性强盗问题的其他应用。



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug