这家公司为AI做了款游戏专门训练人工智能的思维方式

　　对于OpenAI大家想必都不陌生，他们是一个专门研究人工智能的公司，他们的AI曾经在2017年的Dota2国际邀请赛上一对一打败过顶尖职业选手Dendi。（本文授权转载自微信公众号：差评（chaping321））

　　在那之后他们的AI拓展到了多人合作，仅仅是几个月的训练就已经拥有了5V5情况下打败人类准职业选手的水平，平均每局游戏只要30分钟，可以说是干脆利落。

　　不过在之后挑战真正职业选手时，OpenAI落败了，也算是人类为自己保存了最后一丝颜面。曾经的国际邀请赛冠军选手 430、小8、Sansheng，还有老队长Rotk和Burning在前期比分落后的情况下实现翻盘。

　　距离这场比赛已经过去半年多了，这期间OpenAI都没什么大动静，但是在今年三月份，他们推出了一个叫做 Neural MMO的大型多人在线游戏。

　　你说这公司不是研究AI的吗？怎么转行做游戏去了？还做得那么糙？

　　这个游戏其实并不是做给人类玩的，而是专门做给AI玩的，所有游戏中的“玩家”都是AI 。

　　在游戏设定中，整个地图上的资源是有限的，分为石头、草地、熔岩、灌木等等种类，也有食物的存在， AI 则被分为不同种族，根据种族不同有着近战、远程、法术攻击三种模式，整个地图最多容纳 100 个AI同时游戏。

　　它们在这个世界中的目标只有一个——活到最后。

　　这样的设定其实是非常残酷的，AI必须合理地选择适合自己发展的环境，以及与其他AI争夺有限的食物资源。

　　在整个游戏过程中，OpenAI的工作人员会以上帝视角观察整个地图的情况，并且对AI的行为进行记录。

　　值得注意的是，和人类玩家不一样，在AI的“认知”中，他们是不知道一局游戏结束后，是可以“重生”的。

　　人类玩家玩游戏，一局失败了大不了马上再开一局，而AI则是认为自己只有一次生命，会根据自己的逻辑坚定地执行“活到最后”的指令。

　　工作人员发现，大部分的AI都会在这样的情况下选择找个地方“苟活”，找个安静的角落过着与（wei）世（ suo）无（fa）争（yu）的生活。

　　当进入游戏的AI变多后，AI们也会做出决策，自发地开拓地图的角落，避免争端，而每一个AI做出的决策，都会在一定程度上影响到别的AI的决策选择，情况可以说是瞬息万变。

　　说白了，这个网游就是一个AI的“斗兽场”，或者说是在“养蛊”，最后活下来的AI的适应性和学习能力一定是最强的那个。

　　在长久的生物进化过程中，现在活下来的动物们都各自进化出了各自的特征，人类是其中的佼佼者，进化出了对自己而言最适合生活在这个世界的特征以及生活方式。而以“人类”为最终目标的AI ，进化的方向自然也是这样，更多的是“思考方式”上的进化。

　　尽管 Neural MMO 已经尽可能地模拟了真实环境，但是由于素材限制等原因，还是有很大程度的简化，所以 AI 的进化程度还是有一定的局限性。

　　实际上这样的AI训练方式相对以往已经有了非常大的进步了。

　　早些年的AI训练都是以单机游戏为主，让AI自己发现每一步该如何操作，并且最终选出最优解。

　　今年一月份，游戏引擎开发商 Unity 也推出过一款专门给AI挑战的游戏，叫《Obstacle Tower》，它设置了许多谜题，用于测试AI的视觉、控制力等各项能力，一共有100层。

　　Unity还专门设置了1万美元的奖金，邀请各路AI开发者前来挑战，谁能最早通过就可以获得1万美元以及机器学习相关的奖励。

　　由此可以看出，随着时间在进化的不止是AI的能力，训练AI的方式同样在进步着。

　　从最开始的单机游戏中寻找游戏中的固定步骤，到后来的Obstacle Tower考察AI的视觉、操作等能力，再到 Neural MMO中模拟生存环境。。。

　　也许有一天，当技术的进步可以让我们实现真正的“虚拟现实”时，AI也会进化出人类的思维方式吧。