微信号 MLPython
功能介绍 作为沟通学习的平台,发布机器学习与数据挖掘、深度学习、Python实战的前沿与动态,欢迎机器学习爱好者的加入,希望帮助你在AI领域更好的发展,期待与你相遇!
第一部分根据马尔可夫决策过程定义强化学习问题。
第二部分提供了基本的解决方案:动态规划,蒙特卡罗方法和时差学习。
第三部分提出了解决方法的统一视图,并结合了人工神经网络,资格跟踪和规划。
微信扫一扫关注该公众号