你了解人工智能吗 击败DOTA2选手的AI只学习了两周_3DM单机
3dmgame
昨天8月13日,西雅图钥匙体育馆内,由特斯拉 CEO 马斯克投资的人工智能研究机构 Open AI 研发的 Dota2 AI 首次公开亮相,对阵世界顶级选手Dendi。(点我)
Dota2 是一款由玩家操作单一游戏角色,进行多人对战的竞技游戏。Open AI 尝试把游戏规则教会给人工智能,之后开始让它不断和自己对战来提高水平。
Open AI 的开发工程师 Jakub Pachocki 介绍说:” Dota 2 的人工智能最开始只会在地图上乱跑,莫名地死于敌人攻击后,它开始学会哪些行为是错误的,逐渐地它开始学会补兵,攻击对面英雄,训练过程中其实没有突然的大突破,就是一点点地升级。基本的学会以后就也逐渐学会比较复杂的操作了。“
Open AI 的网站介绍了人工智能如何通过自我训练来掌握敌人出现后可能会做出的操作数据,并作出最正确的应对。OpenAI 的 CTO Greg Brockman 解释说,Dota2 的人工智能从零开始,训练了一个小时以后就已经可以打过内置的 AI 了,连续训练了 2 个星期的时间后就达到战胜职业玩家的水平。
令人惊讶地是,在 Open AI 的内部测试中,人工智能已经完全战胜了世界知名Dota2 选手 SumaiL 和 Arteezy 等人。
钥匙体育馆内的比赛也和之前内部测试的结果一样,Dendi 在第一局比赛中以 2:0 告负,而第二局比赛开始仅短短十分钟之后,Dendi 就选择了直接认输,此时AI的实力相比第一局已经更上一个层次,而在此期间并没有程序员为AI添加代码,这就是自我学习。
比赛中AI正在卡兵:

在此之前的游戏 AI 大多建立在由策划设计的游戏脚本上,AI 的行为完全由脚本触发执行,它的智能程度取决于游戏策划考虑的细致程度,所以和游戏 AI 会在比赛中出现固定的行动模式和大量模仿玩家策略的战术表现。
但 Open AI 的人工智能带来了新的体验。它并不是通过脚本行动,也没有使用模仿学习或者数据搜索,而是从头记录 Dota2 的规则,通过和自我对战来了解每一种行动会产生什么后果,从而预测其他玩家下一步可能的操作,做到了在复杂环境下的随机应变。而仅仅训练 2 个星期就打败 Dendi的 Dota2 人工智能,也计划用长达 1 年的时间来实现可以和人类进行团体对战的功能。
正如许多读者所知,游戏是许多研发人员用来训练人工智能的工具。
在 OpenAI 位于旧金山的办公室里,研究人员 Dario Amodei 正在通过赛船冠军赛(Coast Runners)来训练人工智能。不过,这个人工智能好像有点失控了。
赛船冠军赛的游戏规则很简单,如果想赢,选手必须收集到最多的分数,然后跨过终点线。
但 Amodei 的人工智能玩着玩着有点过火了,它在不断地追求高分,非但毫无跨过终点线的意思,反倒为了要多转几个圈拿高分,它开始和其它赛船碰撞,或是在过程中自己撞墙爆炸了。
为了应对,Amodei 和 OpenAI 的同事 Paul Christiano 正在研发一套不仅可以自我学习,同时也愿意接受人工监控的算法。

在赛船游戏的训练中, Amodei 和同事将不时通过按键来指出人工智能的不当之处,告知人工智能,不仅要赢分数,同时也要跨过终点线。他们认为,这种包含了人工干预成分的算法可以确保系统安全性。
而在 Google 旗下 DeepMind 的研究人员也同意 Amodei 和同事的想法。两个团队,分别代表了 OpenAI 和 DeepMind,最近罕有地合作发表了部分人工智能安全方面的研究论文。

除此以外,Google 旗下的 Google Brain,以及来自伯克利大学和斯坦福大学的研究团队,都设有该方向研究课题,从不同方面考虑人工智能安全问题。
除了这种在自我学习过程中“搞错重点”的潜在危险,另一个可预想的人工智能危险在于“为了完成任务,拒绝被开发者关机”。
一般在设计人工智能时,研发人员都会给它设定“目标”,就像赛艇游戏中的“得分”一样。一旦人工智能将获得“分数”为终极目标,它可能会产生一个方法论——想要获得更加多的分数,其中一个方法就是不关闭自己,这样就能无止境地获取分数了。
伯克利大学的研究人员 Dylan Hadfield-Menell 和团队最近发布了讨论这个问题的论文。他们认为,如果在设计算法的时候,让人工智能对目标保持一定不确定性,它们才有可能愿意保留自己的“关机键”。他们采用了数字方式来尝试实现这个设置,目前还处于理论阶段。
除了人工智能自我“失控”,研究人员还在考虑黑客对人工智能的干预影响。
现代计算机视觉基于深度神经网络(deep neural networks),它通过学习分析大批量数据来形成对模式的了解。也就是说,如果要让计算机学会什么是“狗”,那就让它分析大批量狗的图片,并从中寻找规律。
但 Google 的 Ian Goodfellow 则认为,这种模式可能会为黑客提供“蒙骗”人工智能的机会。Goodfellow 和其它研究人员曾展示,只要修改图片中的几个特定像素,他们就能让神经网络相信图片中的大象是一辆汽车。
如果这个神经网络是应用在安保镜头的话,这样就问题大了。
Goodfellow 说道:虽然这些研究大多仍处于理论阶段,但这群致力于将意外扼制于摇篮的研究人员坚信,越早开始考虑这个问题越好。
DeepMind 人工智能安全方面的负责人 Shane Legg 说道:虽然我们还不能确定,人工智能将以多块地速度发展。但我们的责任是尝试理解并猜测,这种技术将有可能以哪种方式被误用,并尝试找出不同的应对方式。