菜得抠脚的人工智能AlphaStar,凭什么能碾压人类职业选手? _ 游民星空 Gamersky.com
gamersky
几十年来,游戏是一直被用作测试和评估AI(人工智能系统)性能的重要方法。随着能力的不断提高,研究者们开始寻求越来越复杂的游戏,这些游戏拥有可以用来解决科学和现实问题所需的多种智能要素。《星际争霸》则被公认是最具挑战性的即时战略游戏(RTS)之一,也是有史以来游戏时长最长的电子竞技之一,已成为AI研究的"重大挑战"。

北京时间1月25日凌晨2点,AI选手AlphaStar完成了他们的《星际争霸2》首秀,需要特别注意的是,这次参加挑战的AI并非一位,而是三位,他们被统称为AlphaStar。

AlphaStar乱拳打死老师傅,昔日天才少年TLO惨败
DeepMind团队在这次挑战中研究出了多款AlphaStar,这些AlphaStar最先通过研究上百万份《星际争霸2》玩家天梯录像进行自我学习,然后再进入一种类似于"AlphaStar联赛"的互相训练赛模式进行学习,这种左右互搏之术让AlphaStar成长创造出自己的三种不同"自我"型号,分别是:“普通型”、“极致操作不败型”、“拟人型”。

经过一个星期的学习之后,AlphaStar已经能够击败研究所内最会打星际的研究员(大约天梯5000分实力)。
与人类高手同台竞技
起初,最先与AlphaStar对战的是来自Liquid战队的TLO,这位曾经的天才少年现在已经远不如前,水平退步的很厉害,目前他在神族欧服天梯也就是5500分左右的水准(TLO主玩虫族,水平尚可),在研究人员看来,作为AlphaStar的出山第一战,这个水平用来给AlphaStar露露脸是再适合不过了。

事实证明AlphaStar远超所有人的预期,或者换句话说,TLO打的太菜,也远超所有人的预期,TLO的神族用辣眼睛来形容真是再贴切不过了——第一局,AlphaStar还没有发力,TLO就倒下了,而这时候的AlphaStar在"会玩"游戏的玩家们眼中,却可以说是漏洞百出,丝毫没有什么游戏理解。

7分钟的对局让我们第一次正面了解了AlphaStar,但是他许多奇怪的操作让人无法理解:一个有上万场录像学习经验的AI,居然学不会职业玩家的建筑学,不会堵口这种战术也就算了,居然自己修水晶阻挡农民采集气体,更令人不可思议的是AlphaStar在单矿运营农民达到上限的时候竟然持续生产农民,这一系列不符合常规理解的操作让人直呼看不懂!

然而细心的观众可能已经发现了,AlphaStar在单矿有21超负荷农民运营的时候,他的实际每分钟收入是超过TLO的——可能这就是AI并不会墨守成规的一点,他通过自己的学习和对游戏的理解,对暴雪订制的游戏运营规则发出了自己的质疑。在AlphaStar看来,并非16农民采集就是单矿的上限。
经历了第一盘溃败的TLO很明显已经乱了阵脚,后续4场比赛也是一败涂地,然而值得我们关注的是,此时的AlphaStar确实还不够强大。首先,AlphaStar的操作经常出现问题,控制单位一多,甚至会出现用自爆球炸自己的镜头,其次是他对游戏理解产生了一定的问题,隐身侦查单位OB他竟然一生产就是5个,并且没有分散使用,这种小细节上暴露的问题显得十分可笑。
AlphaStar进攻中失误,误伤自己单位,瞬间损失近20人口部队
5OB集体巡航让玩家怀疑人生
AlphaStar用一阵乱拳打死老师傅的操作抬走了TLO,这下可把DeepMind团队乐的笑出了声,赶忙邀请了正经八百的神族现役一线职业选手MANA前来对阵。

顶尖神族MANA偷得一胜,为人类保留颜面
同为Liquid的职业选手,MANA就要强势的多了。尽管队友已经败给了AlphaStar,但是他有足够的信心去击败这个AI,毕竟世界前十的神族选手对战一个只学习了两周的AI,就单看第一轮的结果来说,应该是没有任何问题的,这种实力至上的对话,上届WCS亚军完全不虚。

然而,比赛并没有按照预想的发展,起码没有按照MANA预想的那么来——AlphaStar再次闭关修行一周后,已经脱胎换骨,依然坚持自己的25农民单矿超负荷运载,一波2BG+野2BG走路续兵直接换家MANA,仅仅5分钟就兵不血刃拿下首胜。

第二盘的时候AlphaStar拿出了自己之前从未展现的凤凰+追猎组合,凤凰的操控精准飘逸,每一步走位都游离在MANA的攻击距离边缘,精准的控血让AlphaStar占尽了便宜,两三波交换下来,AlphaStar部队保存完好,MANA却被左右包夹和各种秀操作到死。

通过这张GIF我们清晰的可以看到,在与MANA比赛期间,AlphaStar的各种操作其实都是由神经网络的原始观察输入系统(左下),然后神经网络内部开始激活分析处理数据(中下),随后AI得出自己的判断,开始进行操作,生产单位、控制单位,与此同时AlphaStar还在同步的计算自己的胜率。而在AlphaStar眼中,在这波交战过后,MANA几乎再无任何翻盘的机会。

简单来说,第三盘全面爆发的MANA拿出了自己的真本事,然而也只是前期稍占优势,后期AlphaStar甚至使用了主动示弱,诱敌深入的方式将MANA主力三面围歼在外,拥有瞬时间上千有效APM,无敌操作的AlphaStar摧枯拉朽,一击就彻底击垮了MANA。
AlphaStar自信胜率拉满
第五局则更加飘逸,AlphaStar甚至主动去封了MANA的气矿,出其不意的打出了野不朽的战术爆锤MANA,打的世界亚军苦笑连连,毕竟他知道自己会输是因为被机器硬吃了操作,这并不丢人。
最后,作为今日直播的压轴戏,MANA现场又和AlphaStar来了一次对决,这次的AlphaStar全新版本实力更加强大,初期甚至学会了骚扰经济,他选择了出先知来破坏对方农民采集资源,自己依然多BG正面暴兵,运营上面更是夸张的开到了三矿。
就当观众们以为这种"无解肥"的AlphaStar要一波流取胜时,MANA神奇的用一个棱镜带俩不朽空投骚扰AlphaStar主基地,AlphaStar竟然撤回了原本出征的大部队,全员回防,MANA一看对手全部回家,立马撤退,打起了游击,两三个回合下来,竟然把AlphaStar困在基地内无法出门。(很明显MANA发现了这个问题,AlphaStar竟然不懂得分兵!)

这一幕神似日常单机游戏中卡了BOSS的BUG,邪恶的勇士一刀一刀凌迟了中了BUG无法还手的BOSS。然后MANA喘过气来反手就是一个巴掌,顺势拿下了只会出追猎和先知的AlphaStar,取得了《星际争霸2》上人类对战AI的首胜。

AI神功练就需要怎么样磨砺?一些写在比赛之外的话

在DeepMind给出的资料我们可以清晰的看到AlphaStar的学习成长曲线,在"AlphaStar联赛"中开始他们只有2500分左右的水平,然而一周时间的训练,他们就飙升至5500分左右可以和TLO相抗衡。又用了一周时间,对阵MANA这种7000分的顶级神族也不在话下。

AlphaStar联赛——在无数个AlphaStar AI内部进行的对抗系统,在整个项目当中也功不可没。而颇为有趣的一点是,此次出战的三个AlphaStar,是从无数个AI当中厮杀出来的,表现最为优异的几个,而剩下的那些则遭到无情淘汰,这种养蛊模式也颇有些"大逃杀"的味道。
AI们最初通过研究人类玩家的录像进行训练,然后和联赛中的其他AI进行训练。在每次循环中,新的参赛者从原来的竞争者中分支出来,而原来的参赛者被冻结。同时可以调整确定每个可能已经适应的智能体的学习目标的匹配概率和超参数,从而在保持多样性的同时增加难度。通过从参赛者的游戏结果中加强学习来更新代理的参数。 最终的AI从联赛的纳什分布中抽样选出。
然而你所不知道的是,最强款的AlphaStar一周练习量相当于人类200年的练习量,这一点酷似当初的围棋AI——AlphaGO。DeepMind使用了一种"关系性深度强化学习"的方法。打个比方,游戏中一个凤凰是选择抬哨兵还是追猎,这个选择在AI的眼里是个概率问题,而如何让这个概率选择趋于最优化,就需要AI大量的学习迭代。
要知道在围棋的世界里,仅有19X19棋盘,也就是361个落点需要计算,而星际2中,需要计算的量是10^26,这一天文数字的变量让AI举步维艰,但是一旦破局成功,AI的成长也是惊人。
DeepMind研发的AlphaStar超出了所有人的想象,得益于他们技术和资本的优势,他们拥有超群的TPU算力,举个例子,普通AI团队能够让他们的AI每天练习学习数十局,而DeepMind可以让他们的AI每天练习学习一百万局。
为什么在对战MANA的前5盘都能干净利落的拿下比赛,其实AlphaStar也是耍了自己的"小聪明",在十二月版本的AlphaStar,他们采取的观察手段是通过小地图去以"天眼"的姿态俯瞰全局,也就是任何风吹草动,只要是发生在小地图里会显示的信息,都难逃AlphaStar的"天眼"(也即是不用切屏也能获得切屏才能获得的信息)。

这种"不公平"的手段产生了巨大的优势,毕竟人类玩家很难做到一边打游戏一边全神贯注的盯着小地图不放过任何一个细节,因此新版本的AlphaStar修改了镜头的算法,他现在也和人类一样,只能通过屏幕的切换观察战场上的瞬息万变,而直播中最后的表演赛,上场的就是使用人类视角的新版AlphaStar。

新的AlphaStar只用了短短7天就追赶接近了原先"天眼"系统,甚至在一次"AlphaStar训练赛"中击败了"天眼AlphaStar"。
各个选手APM分布,以及AlphaStar在观察和行动之间的延迟分布
然而胜利也并非完全依赖操作,AlphaStar的操作被精准的限制在了450APM,EPM则是180,这一数据远低于顶级选手的爆发操作,而且AlphaStar的反应速度也被限制在了300MS,其实这已经比人慢很多了。但是,这看似正常的数据背后,是一个没有疲劳,0废操作,每一下都下达有效指令的AI,效率转化十分惊人。
在DeepMind的结论下,AlphaStar对战MANA和TLO的成功都是基于卓越的宏观和微观的战略决策,而不是取决于脚本版的操作,或者闪电般的反应速度。然而吃瓜群众也不用担心太多,人类之所以为人类,就是能从不同的结果中学习,DeepMind就是希望能够找出一个能和人类一样自我学习的算法,这个长期的计划对于人类的未来意义重大。

主要参考来源:
DeepMind官网
论文《Relational Deep Reinforcement Learning》(关系性深度强化学习)
同时感谢国内AI领域专家"飞羽"博士对本文的大力支持!
本文仅代表订阅平台作者观点,与本站立场无关。游民星空仅提供发布平台。未经允许严禁转载。