当前位置:
X-MOL 学术
›
arXiv.cs.RO
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Sparse tree search optimality guarantees in POMDPs with continuous observation spaces
arXiv - CS - Robotics Pub Date : 2019-10-10 , DOI: arxiv-1910.04332 Michael H. Lim, Claire J. Tomlin, Zachary N. Sunberg
arXiv - CS - Robotics Pub Date : 2019-10-10 , DOI: arxiv-1910.04332 Michael H. Lim, Claire J. Tomlin, Zachary N. Sunberg
Partially observable Markov decision processes (POMDPs) with continuous state
and observation spaces have powerful flexibility for representing real-world
decision and control problems but are notoriously difficult to solve. Recent
online sampling-based algorithms that use observation likelihood weighting have
shown unprecedented effectiveness in domains with continuous observation
spaces. However there has been no formal theoretical justification for this
technique. This work offers such a justification, proving that a simplified
algorithm, partially observable weighted sparse sampling (POWSS), will estimate
Q-values accurately with high probability and can be made to perform
arbitrarily near the optimal solution by increasing computational power.
中文翻译:
具有连续观察空间的 POMDP 中的稀疏树搜索最优性保证
具有连续状态和观察空间的部分可观察马尔可夫决策过程 (POMDP) 在表示现实世界的决策和控制问题方面具有强大的灵活性,但众所周知难以解决。最近使用观察似然加权的基于在线采样的算法在具有连续观察空间的域中显示出前所未有的有效性。然而,这种技术还没有正式的理论依据。这项工作提供了这样的理由,证明了一种简化的算法,部分可观察加权稀疏采样 (POWSS),可以高概率准确地估计 Q 值,并且可以通过增加计算能力使之在最优解附近任意执行。
更新日期:2020-08-04
中文翻译:
具有连续观察空间的 POMDP 中的稀疏树搜索最优性保证
具有连续状态和观察空间的部分可观察马尔可夫决策过程 (POMDP) 在表示现实世界的决策和控制问题方面具有强大的灵活性,但众所周知难以解决。最近使用观察似然加权的基于在线采样的算法在具有连续观察空间的域中显示出前所未有的有效性。然而,这种技术还没有正式的理论依据。这项工作提供了这样的理由,证明了一种简化的算法,部分可观察加权稀疏采样 (POWSS),可以高概率准确地估计 Q 值,并且可以通过增加计算能力使之在最优解附近任意执行。