当前位置: X-MOL 学术arXiv.cs.LO › 论文详情
TacticZero: Learning to Prove Theorems from Scratch with Deep Reinforcement Learning
arXiv - CS - Logic in Computer Science Pub Date : 2021-02-19 , DOI: arxiv-2102.09756
Minchao Wu; Michael Norrish; Christian Walder; Amir Dezfouli

We propose a novel approach to interactive theorem-proving (ITP) using deep reinforcement learning. Unlike previous work, our framework is able to prove theorems both end-to-end and from scratch (i.e., without relying on example proofs from human experts). We formulate the process of ITP as a Markov decision process (MDP) in which each state represents a set of potential derivation paths. The agent learns to select promising derivations as well as appropriate tactics within each derivation using deep policy gradients. This structure allows us to introduce a novel backtracking mechanism which enables the agent to efficiently discard (predicted) dead-end derivations and restart the derivation from promising alternatives. Experimental results show that the framework provides comparable performance to that of the approaches that use human experts, and that it is also capable of proving theorems that it has never seen during training. We further elaborate the role of each component of the framework using ablation studies.

中文翻译:

TacticZero:通过深度强化学习从零开始学习证明定理

我们提出了一种使用深度强化学习的交互式定理证明(ITP)的新颖方法。与以前的工作不同,我们的框架能够从头到尾地证明定理(即,不依赖人类专家的示例证明)。我们将ITP的过程表述为马尔可夫决策过程(MDP),其中每个状态代表一组潜在的推导路径。代理学习使用深层次的策略梯度来选择有希望的派生以及每个派生中的适当策略。这种结构使我们能够引入一种新颖的回溯机制,该机制使代理能够有效地丢弃(预测)死胡同的派生,并从有前途的替代方案中重新开始派生。实验结果表明,该框架可提供与使用人类专家的方法相当的性能,并且它还能够证明训练期间从未见过的定理。我们使用消融研究进一步阐述了框架各部分的作用。
更新日期:2021-02-22
全部期刊列表>>
2021新春特辑
SN Applied Sciences期刊征稿中
虚拟特刊
亚洲大洋洲地球科学
NPJ欢迎投稿
自然科研论文编辑
ERIS期刊投稿
欢迎阅读创刊号
自然职场,为您触达千万科研人才
spring&清华大学出版社
城市可持续发展前沿研究专辑
Springer 纳米技术权威期刊征稿
全球视野覆盖
施普林格·自然新
chemistry
物理学研究前沿热点精选期刊推荐
自然职位线上招聘会
欢迎报名注册2020量子在线大会
化学领域亟待解决的问题
材料学研究精选新
GIANT
ACS ES&T Engineering
ACS ES&T Water
屿渡论文,编辑服务
阿拉丁试剂right
上海中医药大学
哈工大
西湖大学
化学所
北京大学
山东大学
隐藏1h前已浏览文章
课题组网站
新版X-MOL期刊搜索和高级搜索功能介绍
ACS材料视界
南方科技大学
张凤娇
中国石油大学
天合科研
x-mol收录
试剂库存
down
wechat
bug