当前位置: X-MOL 学术Wirel. Commun. Mob. Comput. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Reducing Entropy Overestimation in Soft Actor Critic Using Dual Policy Network
Wireless Communications and Mobile Computing Pub Date : 2021-06-10 , DOI: 10.1155/2021/9920591
Hamid Ali 1 , Hammad Majeed 1 , Imran Usman 2 , Khaled A. Almejalli 2
Affiliation  

In reinforcement learning (RL), an agent learns an environment through hit and trail. This behavior allows the agent to learn in complex and difficult environments. In RL, the agent normally learns the given environment by exploring or exploiting. Most of the algorithms suffer from under exploration in the latter stage of the episodes. Recently, an off-policy algorithm called soft actor critic (SAC) is proposed that overcomes this problem by maximizing entropy as it learns the environment. In it, the agent tries to maximize entropy along with the expected discounted rewards. In SAC, the agent tries to be as random as possible while moving towards the maximum reward. This randomness allows the agent to explore the environment and stops it from getting stuck into local optima. We believe that maximizing the entropy causes the overestimation of entropy term which results in slow policy learning. This is because of the drastic change in action distribution whenever agent revisits the similar states. To overcome this problem, we propose a dual policy optimization framework, in which two independent policies are trained. Both the policies try to maximize entropy by choosing actions against the minimum entropy to reduce the overestimation. The use of two policies result in better and faster convergence. We demonstrate our approach on different well known continuous control simulated environments. Results show that our proposed technique achieves better results against state of the art SAC algorithm and learns better policies.

中文翻译:

使用双策略网络减少软演员评论家的熵高估

在强化学习 (RL) 中,代理通过命中和追踪来学习环境。这种行为允许代理在复杂和困难的环境中学习。在强化学习中,代理通常通过探索或利用来学习给定的环境。大多数算法在剧集的后期都没有得到充分的探索。最近,提出了一种称为软演员评论家(SAC)的离策略算法,它通过在学习环境时最大化熵来克服这个问题。在其中,代理尝试最大化熵以及预期的折扣奖励。在 SAC 中,代理在朝着最大奖励移动的同时尽可能地随机。这种随机性允许代理探索环境并阻止它陷入局部最优。我们认为最大化熵会导致对熵项的高估,从而导致策略学习缓慢。这是因为每当代理重新访问相似状态时,动作分布就会发生剧烈变化。为了克服这个问题,我们提出了一个双重策略优化框架,其中训练了两个独立的策略。这两种策略都试图通过选择针对最小熵的动作来减少高估来最大化熵。两种策略的使用导致更好更快的收敛。我们在不同的众所周知的连续控制模拟环境中展示了我们的方法。结果表明,我们提出的技术相对于最先进的 SAC 算法取得了更好的结果,并学习了更好的策略。这是因为每当代理重新访问相似状态时,动作分布就会发生剧烈变化。为了克服这个问题,我们提出了一个双重策略优化框架,其中训练了两个独立的策略。这两种策略都试图通过选择针对最小熵的动作来减少高估来最大化熵。两种策略的使用导致更好更快的收敛。我们在不同的众所周知的连续控制模拟环境中展示了我们的方法。结果表明,我们提出的技术相对于最先进的 SAC 算法取得了更好的结果,并学习了更好的策略。这是因为每当代理重新访问相似状态时,动作分布就会发生剧烈变化。为了克服这个问题,我们提出了一个双重策略优化框架,其中训练了两个独立的策略。这两种策略都试图通过选择针对最小熵的动作来减少高估来最大化熵。两种策略的使用导致更好更快的收敛。我们在不同的众所周知的连续控制模拟环境中展示了我们的方法。结果表明,我们提出的技术相对于最先进的 SAC 算法取得了更好的结果,并学习了更好的策略。这两种策略都试图通过选择针对最小熵的动作来减少高估来最大化熵。两种策略的使用导致更好更快的收敛。我们在不同的众所周知的连续控制模拟环境中展示了我们的方法。结果表明,我们提出的技术相对于最先进的 SAC 算法取得了更好的结果,并学习了更好的策略。这两种策略都试图通过选择针对最小熵的动作来减少高估来最大化熵。两种策略的使用导致更好更快的收敛。我们在不同的众所周知的连续控制模拟环境中展示了我们的方法。结果表明,我们提出的技术相对于最先进的 SAC 算法取得了更好的结果,并学习了更好的策略。
更新日期:2021-06-10
down
wechat
bug