• 主页 > 攻略问答
  • 仅仅练习一个月的腾讯AI绝悟化身WeKick,用迁移学习速战速决拿下谷歌线上足球赛冠军

    量子比特报告|公众号QbitAI

    一记漂亮的长传,直接助攻射门:

    足球冠军杯图片_足球冠军头像_世界冠军足球图片

    运球过两人:

    足球冠军杯图片_足球冠军头像_世界冠军足球图片

    如此高超的网络足球技术并非是踢了两三年的“老将”练就的,而是腾讯AI仅练了一个月的“完美启蒙”所练就的。

    如今,在击败了大部分荣耀选手后,AI“绝乌”更名为WeKick,在谷歌主办的在线世界足球锦标赛上一试身手。

    没想到轻松夺冠:

    足球冠军杯图片_世界冠军足球图片_足球冠军头像

    嗯?击败国王后我还能玩FIFA吗?

    没错,利用迁移学习,“足球版决武”WeKick 可以快速掌握踢球的技巧。

    但如果你想玩多种策略并稳定地掌握这些策略,你就必须使用不同的方法。

    各种风格的小模特,共同培养主模

    完全由《绝物》迁移而来的WeKick针对本次足球比赛做出了战略调整。

    世界冠军足球图片_足球冠军杯图片_足球冠军头像

    与常规足球游戏中“控制整个球队”不同,在这款足球游戏中,每支球队需要控制一名智能体,与游戏中内置的 10 名智能体组成队伍(11vs11 赛制)。

    换句话说,每个代理人“球员”都需要学习如何在队友之间传球,克服对手的防守来进球。

    然而,使用强化学习来训练一个可以从头开始踢足球的人工智能是相当困难的。

    在《王者荣耀》等MOBA游戏中,智能体可以学习的信号有很多,包括实时经济、血量、经验等。

    足球冠军头像_足球冠军杯图片_世界冠军足球图片

    但足球比赛中的激励机制却十分稀疏,几乎只有“进球”这一奖励机制。

    稀疏激励是强化学习的问题之一。

    足球冠军杯图片_足球冠军头像_世界冠军足球图片

    为了克服这个困难,《绝物》WeKick版本采用了三项创新来训练模型。

    首先,它是Self-Play强化学习。

    WeKick 部署了一个异步分布式强化学习框架。虽然在训练时会牺牲一些实时性能,但可以提高其灵活性,支持训练过程中计算资源的按需调整。

    此外,WeKick还采用了生成对抗性训练机制,将生成对抗性模拟学习(GAIL)与人工设计的奖励相结合。

    世界冠军足球图片_足球冠军杯图片_足球冠军头像

    这种机制可以模拟专家行为的状态和动作分布,让WeKick可以向其他团队学习。

    之后,使用GAIL训练的模型作为固定对手,再次进行自博训练,可以提高策略的鲁棒性。

    虽然这个方法很好,但是它有一个缺陷。

    训练后,模型很容易收敛到单一风格,模型很容易因为“没有看到某种风格的打法”而表现异常,导致表现不佳。

    因此,WeKick 团队想出了一个方法:采用多风格的强化学习训练方案,让智能代理“玩家”先专攻某一领域,然后再进行合作。

    足球冠军杯图片_足球冠军头像_世界冠军足球图片

    也就是说,首先训练一批具有一定竞技能力的基础模型。每个模型都能掌握运球、传球协调、射门和得分……

    然后,在基本模型的基础上,训练各种风格的各种模型。在此过程中,会定期添加主模特作为玩家,防止模特拘泥于原有风格。

    足球冠军头像_足球冠军杯图片_世界冠军足球图片

    最后,将这些模型组合在一起训练主模型。在此期间,主模除了以历史模型作为对手外,还将使用所有风格化的基础模型作为对手,以确保主模型能够应对各种风格的踢法。

    通过这三种方法训练出来的模型WeKick不仅拥有丰富的足球经验,而且能够准确地对抗各种不同风格的比赛技巧。

    Google+ 英超联赛、在线足球比赛

    这款在线足球游戏,Google Football,有点像人工智能操作的足球游戏。它由 Google 和英超曼城俱乐部在 Kaggle 上联合举办。

    足球冠军头像_世界冠军足球图片_足球冠军杯图片

    比赛采用谷歌的强化学习环境,基于开源足球游戏Gameplay Football开发。来自全球顶尖大学和研究机构的1100多支队伍参加了本次挑战赛。

    与足球比赛规则一致,网络足球比赛也需要遵守越位、黄牌、红牌等规则。

    在谷歌提供的足球环境中,智能“球员”可以做出短传、长传、带球、射门等动作。

    世界冠军足球图片_足球冠军杯图片_足球冠军头像

    经过多轮角逐,WeKick最终以1785.8的总分以显着优势赢得了比赛。

    足球冠军头像_足球冠军杯图片_世界冠军足球图片

    不过,这并不是“绝物”第一次参加谷歌组织的足球比赛。

    在5v5多智能体天梯赛谷歌研究足球联赛中,《绝物》也取得了第一名的成绩。

    事实上,在游戏AI上不断进步的《绝物》已经经历了三次进化。

    从最初战胜雅达利游戏,到后来的围棋AI“决一”,再到包括王者荣耀在内的MOBA游戏AI“决武”,再到现在的足球游戏AI“WeKick”,这种深度强化学习智能体正在改变更多复杂的。

    腾讯AI实验室表示,他们的目标是不断向通用人工智能(AGI)迈进。

    足球冠军头像_足球冠军杯图片_世界冠军足球图片

    整体训练框架:

    Kaggle足球排名:

    -超过-

    本文为网易新闻·网易精选内容激励计划签约账号【量子比特】原创内容。未经账号授权,禁止任何转载。

    AI落地的最佳参考!

    2020中国人工智能年度评选结果揭晓

    12月16日,量子位MEET 2021智能未来大会上,50强领军企业、10强明星创业公司、30强商业领袖、10佳产品、10佳解决方案、5强社会责任角色车型、五佳技术社区等年度奖项悉数颁发。

    点击图片查看完整列表:

    量子比特QbitAI·今日头条签约作者

    ̾'ᴗ' ̫ 追踪AI技术和产品新进展

    连续点击三下“分享”、“点赞”、“观看”

    尖端科技的进步天天可见~

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系本站,一经查实,本站将立刻删除。如若转载,请注明出处:https://www.bjkytsjk.com/html/tiyuwenda/21169.html

    加载中~

    相关推荐

    加载中~