当前位置: X-MOL 学术Infor › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Least squares policy iteration with instrumental variables vs. direct policy search: comparison against optimal benchmarks using energy storage
INFOR ( IF 1.3 ) Pub Date : 2019-06-19 , DOI: 10.1080/03155986.2019.1624491
Somayeh Moazeni 1 , Warren R. Scott 2 , Warren B. Powell 2
Affiliation  

This article studies least-squares approximate policy iteration (API) methods with parametrized value-function approximation. We study several variations of the policy evaluation phase, namely, Bellman error minimization, Bellman error minimization with instrumental variables, projected Bellman error minimization, and projected Bellman error minimization with instrumental variables. For a general discrete-time stochastic control problem, Bellman error minimization policy evaluation using instrumental variables is equivalent to both variants of the projected Bellman error minimization. An alternative to these API methods is direct policy search based on knowledge gradient. The practical performance of these three approximate dynamic programming methods, (i) least squares API with Bellman error minimization, (ii) least squares API with Bellman error minimization with instrumental variables, and (iii) direct policy search, are investigated in the context of an application in energy storage operations management. We create a library of test problems using real-world data and apply value iteration to find their optimal policies. These optimal benchmarks are then used to compare the developed approximate dynamic programming policies. Our analysis indicates that least-squares API with instrumental variables Bellman error minimization prominently outperforms least-squares API with Bellman error minimization. However, these approaches underperform our direct policy search implementation.



中文翻译:

具有工具变量的最小二乘策略迭代与直接策略搜索:使用能量存储与最佳基准进行比较

本文研究了具有参数化值函数逼近的最小二乘近似策略迭代(API)方法。我们研究了策略评估阶段的几种变体,即Bellman错误最小化,带工具变量的Bellman错误最小化,投影Bellman错误最小化和带工具变量的预计Bellman错误最小化。对于一般的离散时间随机控制问题,使用工具变量的Bellman误差最小化策略评估等效于所计划的Bellman误差最小化的两个变体。这些API方法的替代方法是基于知识梯度的直接策略搜索。这三种近似动态编程方法的实际性能:(i)具有最小化Bellman误差的最小二乘API,(ii)使用工具变量将Bellman错误最小化的最小二乘API,以及(iii)直接策略搜索,在储能运营管理中的应用中进行了研究。我们使用实际数据创建一个测试问题库,并应用值迭代来找到其最佳策略。然后,将这些最佳基准用于比较开发的近似动态编程策略。我们的分析表明,具有工具变量Bellman误差最小化的最小二乘API明显优于具有Bellman误差最小化的最小二乘API。但是,这些方法不如我们的直接策略搜索实施。我们使用实际数据创建一个测试问题库,并应用值迭代来找到其最佳策略。然后,将这些最佳基准用于比较开发的近似动态编程策略。我们的分析表明,具有工具变量Bellman误差最小化的最小二乘API明显优于具有Bellman误差最小化的最小二乘API。但是,这些方法不如我们的直接策略搜索实施。我们使用实际数据创建一个测试问题库,并应用值迭代来找到其最佳策略。然后,将这些最佳基准用于比较开发的近似动态编程策略。我们的分析表明,具有工具变量Bellman误差最小化的最小二乘API明显优于具有Bellman误差最小化的最小二乘API。但是,这些方法不如我们的直接策略搜索实施。我们的分析表明,具有工具变量Bellman误差最小化的最小二乘API明显优于具有Bellman误差最小化的最小二乘API。但是,这些方法不如我们的直接策略搜索实施。我们的分析表明,具有工具变量Bellman误差最小化的最小二乘API明显优于具有Bellman误差最小化的最小二乘API。但是,这些方法不如我们的直接策略搜索实施。

更新日期:2019-06-19
down
wechat
bug