当前位置: X-MOL 学术IEEE Trans. Cybern. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Graph-Attention-Based Casual Discovery With Trust Region-Navigated Clipping Policy Optimization
IEEE Transactions on Cybernetics ( IF 11.8 ) Pub Date : 2021-10-19 , DOI: 10.1109/tcyb.2021.3116762
Shixuan Liu 1 , Yanghe Feng 1 , Keyu Wu 1 , Guangquan Cheng 1 , Jincai Huang 1 , Zhong Liu 1
Affiliation  

In many domains of empirical sciences, discovering the causal structure within variables remains an indispensable task. Recently, to tackle unoriented edges or latent assumptions violation suffered by conventional methods, researchers formulated a reinforcement learning (RL) procedure for causal discovery and equipped a REINFORCE algorithm to search for the best rewarded directed acyclic graph. The two keys to the overall performance of the procedure are the robustness of RL methods and the efficient encoding of variables. However, on the one hand, REINFORCE is prone to local convergence and unstable performance during training. Neither trust region policy optimization, being computationally expensive, nor proximal policy optimization (PPO), suffering from aggregate constraint deviation, is a decent alternative for combinatory optimization problems with considerable individual subactions. We propose a trust region-navigated clipping policy optimization method for causal discovery that guarantees both better search efficiency and steadiness in policy optimization, in comparison with REINFORCE, PPO, and our prioritized sampling-guided REINFORCE implementation. On the other hand, to boost the efficient encoding of variables, we propose a refined graph attention encoder called SDGAT that can grasp more feature information without priori neighborhood information. With these improvements, the proposed method outperforms the former RL method in both synthetic and benchmark datasets in terms of output results and optimization robustness.

中文翻译:

基于图注意力的偶然发现与信任区域导航裁剪策略优化

在经验科学的许多领域,发现变量中的因果结构仍然是一项不可或缺的任务。最近,为了解决传统方法所遭受的无向边或潜在假设违规问题,研究人员制定了强化学习 (RL) 程序以进行因果发现,并配备了 REINFORCE 算法来搜索最佳奖励有向无环图。该过程整体性能的两个关键是 RL 方法的稳健性和变量的有效编码。但是,一方面,REINFORCE在训练过程中容易出现局部收敛,性能不稳定。既不是信任区域策略优化,计算量大,也不是近端策略优化(PPO),遭受聚合约束偏差,对于具有大量单个子操作的组合优化问题是一个不错的选择。我们提出了一种用于因果发现的信任区域导航裁剪策略优化方法,与 REINFORCE、PPO 和我们的优先采样引导的 REINFORCE 实施相比,它保证了更好的搜索效率和策略优化的稳定性。另一方面,为了提高变量的有效编码,我们提出了一种称为 SDGAT 的改进图注意力编码器,它可以在没有先验邻域信息的情况下掌握更多的特征信息。通过这些改进,所提出的方法在输出结果和优化鲁棒性方面在合成数据集和基准数据集中都优于以前的 RL 方法。我们提出了一种用于因果发现的信任区域导航裁剪策略优化方法,与 REINFORCE、PPO 和我们的优先采样引导的 REINFORCE 实施相比,它保证了更好的搜索效率和策略优化的稳定性。另一方面,为了提高变量的有效编码,我们提出了一种称为 SDGAT 的改进图注意力编码器,它可以在没有先验邻域信息的情况下掌握更多的特征信息。通过这些改进,所提出的方法在输出结果和优化鲁棒性方面在合成数据集和基准数据集中都优于以前的 RL 方法。我们提出了一种用于因果发现的信任区域导航裁剪策略优化方法,与 REINFORCE、PPO 和我们的优先采样引导的 REINFORCE 实施相比,它保证了更好的搜索效率和策略优化的稳定性。另一方面,为了提高变量的有效编码,我们提出了一种称为 SDGAT 的改进图注意力编码器,它可以在没有先验邻域信息的情况下掌握更多的特征信息。通过这些改进,所提出的方法在输出结果和优化鲁棒性方面在合成数据集和基准数据集中都优于以前的 RL 方法。以及我们优先采样引导的 REINFORCE 实施。另一方面,为了提高变量的有效编码,我们提出了一种称为 SDGAT 的改进图注意力编码器,它可以在没有先验邻域信息的情况下掌握更多的特征信息。通过这些改进,所提出的方法在输出结果和优化鲁棒性方面在合成数据集和基准数据集中都优于以前的 RL 方法。以及我们优先采样引导的 REINFORCE 实施。另一方面,为了提高变量的有效编码,我们提出了一种称为 SDGAT 的改进图注意力编码器,它可以在没有先验邻域信息的情况下掌握更多的特征信息。通过这些改进,所提出的方法在输出结果和优化鲁棒性方面在合成数据集和基准数据集中都优于以前的 RL 方法。
更新日期:2021-10-19
down
wechat
bug