这家公司为AI做了款游戏 专门训练人工智能的思维方式
对于OpenAI大家想必都不陌生,他们是一个专门研究人工智能的公司,他们的AI曾经在2017年的Dota2国际邀请赛上一对一打败过顶尖职业选手Dendi。(本文授权转载自微信公众号:差评(chaping321))
在那之后他们的AI拓展到了多人合作,仅仅是几个月的训练就已经拥有了5V5情况下打败人类准职业选手的水平,平均每局游戏只要30分钟,可以说是干脆利落。
不过在之后挑战真正职业选手时,OpenAI落败了,也算是人类为自己保存了最后一丝颜面。曾经的国际邀请赛冠军选手 430、小8、Sansheng,还有老队长Rotk和Burning在前期比分落后的情况下实现翻盘。
距离这场比赛已经过去半年多了,这期间OpenAI都没什么大动静,但是在今年三月份,他们推出了一个叫做 Neural MMO的大型多人在线游戏。
你说这公司不是研究AI的吗?怎么转行做游戏去了?还做得那么糙?
这个游戏其实并不是做给人类玩的,而是专门做给AI玩的,所有游戏中的“玩家”都是AI 。
在游戏设定中,整个地图上的资源是有限的,分为石头、草地、熔岩、灌木等等种类,也有食物的存在, AI 则被分为不同种族,根据种族不同有着近战、远程、法术攻击三种模式,整个地图最多容纳 100 个AI同时游戏。
它们在这个世界中的目标只有一个——活到最后。
这样的设定其实是非常残酷的,AI必须合理地选择适合自己发展的环境,以及与其他AI争夺有限的食物资源。
在整个游戏过程中,OpenAI的工作人员会以上帝视角观察整个地图的情况,并且对AI的行为进行记录。
值得注意的是,和人类玩家不一样,在AI的“认知”中,他们是不知道一局游戏结束后,是可以“重生”的。
人类玩家玩游戏,一局失败了大不了马上再开一局,而AI则是认为自己只有一次生命,会根据自己的逻辑坚定地执行“活到最后”的指令。
工作人员发现,大部分的AI都会在这样的情况下选择找个地方“苟活”,找个安静的角落过着与(wei)世( suo)无(fa)争(yu)的生活。
当进入游戏的AI变多后,AI们也会做出决策,自发地开拓地图的角落,避免争端,而每一个AI做出的决策,都会在一定程度上影响到别的AI的决策选择,情况可以说是瞬息万变。
说白了,这个网游就是一个AI的“斗兽场”,或者说是在“养蛊”,最后活下来的AI的适应性和学习能力一定是最强的那个。
在长久的生物进化过程中,现在活下来的动物们都各自进化出了各自的特征,人类是其中的佼佼者,进化出了对自己而言最适合生活在这个世界的特征以及生活方式。而以“人类”为最终目标的AI ,进化的方向自然也是这样,更多的是“思考方式”上的进化。
尽管 Neural MMO 已经尽可能地模拟了真实环境,但是由于素材限制等原因,还是有很大程度的简化,所以 AI 的进化程度还是有一定的局限性。
实际上这样的AI训练方式相对以往已经有了非常大的进步了。
早些年的AI训练都是以单机游戏为主,让AI自己发现每一步该如何操作,并且最终选出最优解。
今年一月份,游戏引擎开发商 Unity 也推出过一款专门给AI挑战的游戏,叫《Obstacle Tower》,它设置了许多谜题,用于测试AI的视觉、控制力等各项能力,一共有100层。
Unity还专门设置了1万美元的奖金,邀请各路AI开发者前来挑战,谁能最早通过就可以获得1万美元以及机器学习相关的奖励。
由此可以看出,随着时间在进化的不止是AI的能力,训练AI的方式同样在进步着。
从最开始的单机游戏中寻找游戏中的固定步骤,到后来的Obstacle Tower考察AI的视觉、操作等能力,再到 Neural MMO中模拟生存环境。。。
也许有一天,当技术的进步可以让我们实现真正的“虚拟现实”时,AI也会进化出人类的思维方式吧。