当前位置: X-MOL 学术SIAM J. Control Optim. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Representation Formulas for Limit Values of Long Run Stochastic Optimal Controls
SIAM Journal on Control and Optimization ( IF 2.2 ) Pub Date : 2020-07-06 , DOI: 10.1137/18m1169151
Rainer Buckdahn , Juan Li , Marc Quincampoix , Jérôme Renault

SIAM Journal on Control and Optimization, Volume 58, Issue 4, Page 1846-1873, January 2020.
A classical problem in stochastic ergodic control consists of studying the limit behavior of the optimal value of a discounted integral in infinite horizon (the so called Abel mean of an integral cost) as the discount factor $\lambda$ tends to zero or the value defined with a Cesàro mean of an integral cost when the horizon $T$ tends to $+ \infty$. We investigate the possible limits in the norm of uniform convergence topology of values defined through Abel means or Ceàro means when $ \lambda \to 0^+ $ and $T \to + \infty $, respectively. Here we give two types of new representation formulas for the accumulation points of the values when the averaging parameter converges. We show that there is only one possible accumulation point which is the same for Abel means or Cesàro means. The first type of representation formula is based on probability measures on the product of the state space and the control state space, which are limits of occupational measures. The second type of representation formula is based on measures which are the projection of invariant measure on the space of relaxed controls. We also give a result comparing the both sets of measures involved in both classes of representation formulas. An important consequence of the representation formulas is the existence of the limit value when one has the equicontinuity property of Abel or Cesàro mean values. This is the case, for example, for nonexpansive stochastic control systems. In the end some insightful examples are given which help to better understand the results.


中文翻译:

长期随机最优控制极限值的表示公式

SIAM控制与优化杂志,第58卷,第4期,第1846-1873页,2020年1月。
随机遍历控制中的经典问题包括研究无穷范围内折扣积分的最优值(所谓的积分成本的Abel均值)的最优行为,因为折扣因子$ \ lambda $趋于零或所定义的值当水平$ T $趋于$ + \ infty $时,Cesàro的平均成本为均值。我们研究了当$ \ lambda \ to 0 ^ + $和$ T \ to + \ infty $时,通过Abel方式或Ceàro方式定义的值的一致收敛拓扑范数的可能限制。这里,当平均参数收敛时,我们为值的累积点提供了两种新的表示公式。我们表明,只有一个可能的累积点与Abel均值或Cesàro均值相同。第一类表示公式基于状态空间和控制状态空间乘积的概率测度,这是职业测度的极限。第二种表示公式基于度量,即不变度量在轻松控件空间上的投影。我们还给出了比较这两种表示形式中涉及的两组度量的结果。表示公式的一个重要结果是,当极限具有Abel或Cesàro平均值的等连续性时,极限值就会存在。例如,对于非扩展随机控制系统就是这种情况。最后给出了一些有见地的例子,可以帮助更好地理解结果。这是职业措施的限制。第二种表示公式基于度量,即不变度量在轻松控件空间上的投影。我们还给出了比较两种表示形式中涉及的两组度量的结果。表示公式的一个重要结果是,当极限具有Abel或Cesàro平均值的等连续性时,极限值就会存在。例如,对于非扩展随机控制系统就是这种情况。最后给出了一些有见地的例子,可以帮助更好地理解结果。这是职业措施的限制。第二种表示公式基于度量,即不变度量在轻松控件空间上的投影。我们还给出了比较这两种表示形式中涉及的两组度量的结果。表示公式的一个重要结果是,当极限具有Abel或Cesàro平均值的等连续性时,极限值就会存在。例如,对于非扩展随机控制系统就是这种情况。最后给出了一些有见地的例子,可以帮助更好地理解结果。我们还给出了比较这两种表示形式中涉及的两组度量的结果。表示公式的一个重要结果是,当极限具有Abel或Cesàro平均值的等连续性时,极限值就会存在。例如,对于非扩展随机控制系统就是这种情况。最后给出了一些有见地的例子,可以帮助更好地理解结果。我们还给出了比较这两种表示形式中涉及的两组度量的结果。表示公式的一个重要结果是,当极限具有Abel或Cesàro平均值的等连续性时,极限值就会存在。例如,对于非扩展随机控制系统就是这种情况。最后给出了一些有见地的例子,可以帮助更好地理解结果。
更新日期:2020-07-23
down
wechat
bug