绝悟:我跟瓜迪奥拉执教的曼彻斯特城「进行了一番交流」。
从打王者荣耀到踢足球,腾讯 AI Lab 的绝悟最近有了又一次进化。12 月 30 日,首届谷歌足球 Kaggle 竞赛正式结束,来自腾讯 AI Lab 的绝悟 WeKick 版本,凭借 1785.8 的总分在与全球顶级技术团队的竞技中以显著优势获得了冠军。这是自今年 11 月底,腾讯 AI Lab 与王者荣耀联合研发的策略协作型 AI 绝悟升级为完全体之后,腾讯 AI 的又一次新尝试。在 11 月 28-30 日手游王者荣耀限时开放的绝悟最终挑战中,玩家和 AI 可以选择目前版本游戏里几乎所有的英雄,也接受 5 人组队挑战。在 MOBA 游戏中,自我博弈的 AI 已经达到了无限接近成熟的水平。据介绍,此次绝悟 WeKick 版本的整体设计正是基于绝悟完全体迁移得到,并针对足球比赛的特性进行了一些针对性调整,展现了绝悟 AI 背后深度强化学习方法的通用能力。谷歌 Kaggle 足球竞赛排行榜的前十名,来自 https://www.kaggle.com/c/google-football/leaderboard 数据竞赛平台 Kaggle,对于机器学习社区的人们再熟悉不过了,这一平台创建于 2010 年,一直是全球最大的数据科学社区和竞赛平台。此次足球 AI 比赛由 Google Research 与英超曼城俱乐部联合举办。举办这样的竞赛,自然是因为极具挑战性:一直以来,足球运动团队策略以其复杂性、多样性和高难度,是困扰世界顶尖 AI 研究团队的难题。曼城和谷歌提出的竞赛,是 Kaggle 上首次出现针对足球 AI 领域的赛题,为深度强化学习多智能体技术竞技和基准评测提供了一个全新舞台。城市足球集团数据洞察和决策技术总监 Brian Prestidge 表示:「足球是一个极其复杂的环境,同时也难以学习规律。学习经常是试错的过程,但在足球场上失败很难被人接受。谷歌提出的虚拟环境让我们找到了一个测试战术概念和完善原理的绝佳场所,足以让教练们(将其中获得的经验)投入实践。」本次比赛使用 Google Research Football 强化学习环境,基于开源足球游戏 Gameplay Football 开发,采取常规的 11 对 11 人赛制,参赛团队需要控制其中一个智能体与十个内置智能体组成球队,看起来有点像在玩 FIFA 和实况里的生涯模式。在今年 9 月比赛一经上线,便吸引了来自世界顶级院校和研究机构的 1100 多支队伍参与挑战。Google-Football (on Kaggle) 竞赛以最流行的足球运动为模型,智能体控制足球队中的一个或所有足球运动员,学习如何在他们之间传球,并设法突破对方的防守进球。其竞赛规则与普通足球比赛类似,目标都是将球踢入对方球门,同时带有越位、黄牌和红牌规则。不同于常见足球视频游戏的统一调控式 NPC 球队,在本次 Kaggle 竞赛中,每个球员都各由一个单独的智能体控制,而参赛的 AI 模型则根据比赛情况控制其中一个智能体,与其他 10 个内置智能体配合。这要求每个球员不仅需要观察对手的行为,还需要留意己方队员的情况,背后需要非常复杂的团队协作和竞争策略作为支撑。WeKick(黄色球衣) vs SaltyFish(本次竞赛第二名)近期的一局比赛片段。
例如,当对方球员控球时,己方智能体不仅要根据球场上双方球员的分布位置预测控球球员的下一步动作,还需要与己方其他球员协同如何在不犯规的情况下夺取球权。由于球场动态瞬息万变,因此高速的实时决策能力也是必需的。此外,从零开始完全采用强化学习方法来训练完整的足球 AI 实际上也相当困难。与 MOBA 游戏中不断有经济、血量、经验等实时学习信号不同,足球的游戏激励非常稀疏,基本只能依靠进球,而调节奖励机制一直是目前强化学习领域面临的一大难题。得益于深度强化学习在游戏领域的快速发展,从 Atari 游戏、围棋,再到星际争霸、Dota2 等视频游戏,AI 智能体在不断的迭代演化中变得越来越强大,而足球运动的团队策略,是人工智能的最新目标。绝悟 WeKick 版本首先采用了强化学习和自我博弈(Self-Play)来从零开始训练模型,并部署了一种异步的分布式强化学习框架。虽然该异步架构牺牲了训练阶段的部分实时性能,但灵活性却得到显著提升,而且还支持在训练过程中按需调整计算资源,使其能适应 11 智能体的足球游戏训练环境。由于 MOBA 游戏和足球游戏任务目标的差异,绝悟 WeKick 版本采用了生成对抗模拟学习(GAIL)与人工设计的奖励结合,在特征与奖励设计上进行了扩展和创新。该方案利用了生成对抗训练机制来拟合专家行为的状态和动作分布,使得绝悟 WeKick 版本可以从其它球队学习。随后,研究人员们再将 GAIL 训练的模型作为固定对手进行进一步自博弈训练,进一步提升了策略的稳健性。GAIL 的优势(WeKick 的奖励设计综合了 Reward Shaping 和 GAIL 两种方案)但是,这种通过自博弈强化学习得到的模型有一个天然的缺点:很容易收敛到单一风格。在实际比赛终,单一风格的「球队」很容易发生由于没见过某种打法而表现失常,最终导致成绩不佳的情况。我们知道,足球在一百多年的发展历程中曾经出现过很多种流行战术:防守反击、全攻全守、Tiki-taka……因此,为了提升策略的多样性和稳健性,绝悟还采用了针对多智能体学习任务的 League(若干策略池)多风格强化学习训练方案。这种 League 多风格强化学习训练方案的主要流程可简单总结为先专精后综合。首先训练一个具备一定程度竞技能力的基础模型,比如盘带过人、传切配合、射门得分,接着基于基础模型训练出多个风格化模型,每个模型专注一种风格打法,在风格化模型训练的过程中会定期加入主模型作为对手,避免过度坚持风格,丢失基本能力。最后,研究人员基于多个基础模型训练出了一个主模型,主模型除了以自己的历史模型为对手以外,还会定期加入所有风格化对手的最新模型作为对手,确保主模型能够适应风格完全不同的对手。腾讯内部的能力评分系统显示,加入对手池训练以后的主模型,可以在基础模型的基础上提高 200 分,比最强的风格化打法高 80 分。最终,基于绝悟完全体的架构迁移,定制化的框架改进,加上关键性的生成对抗模拟学习(GAIL)方案和 League (若干策略池)多风格强化学习训练方案,使得绝悟实现了优于其它竞争 AI 球队的优势,最终成就了冠军之路。WeKick 与 SaltyFish 一局比赛中的进球。
绝悟 WeKick 版本在足球比赛中夺冠,意味着在绝悟继完全体升级后,其背后的深度强化学习方案又训练出了适应复杂足球竞技场景的 AI 模型,验证了腾讯绝悟 AI 底层架构与方法的通用性。在未来,这一技术还可以进一步发展,并延伸到真实性更高、更复杂的场景之中。据了解,绝悟团队的研究方向正在从足球比赛中的单个智能体控制向 11 个智能体同时控制、协同作战深入。当场上需要控制的足球独立智能体个数达到 11 个,强化学习的难度将呈现指数级增长。同时,由于足球智能体之间差距不大,如何自动形成角色分工以及在不同角色间进行激励分配,也一直是多智能体强化学习的难题。在此前 5v5 形式(多智能体)的谷歌天梯比赛 Google Research Football League 中,腾讯绝悟团队曾也摘得过冠军,展现了绝悟 AI 的巨大潜力。在足球赛场上,大数据分析、人工智能的身影很早就已出现。人们时常听到的 ProZone,可以通过球场内的摄像头监测球员的一举一动,让战术和训练变得更加精密。在西甲和英超,几乎所有球队都在大面积使用这些技术。而通过强化学习从零开始的自我博弈,是否也能像围棋一样为足球世界带来前所未有的战术?这或许是未来一段时间内我们可以期待的事了。© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com