世界上最强的德州扑克牌玩家,加入了美国国防部
最近外媒有消息说,五角大楼和一位世界上最强的德州扑克玩家签订了一项可能高达上千万美元的大合同,将可能会帮助美国军方进行军事策略的推演。这位玩家在去年和4名顶尖高手大战了三周,从他们手中赢下了将近180万美元,平均百手大盲注胜率高达+14.7。
这位实力超群的扑克高手,就是卡内基梅隆大学的人工智能“冷扑”(Libratus)。
虽然没有围棋AI“阿尔法狗”那么瞩目,但是“冷扑”需要解决的问题其实要比围棋更加复杂。在AI的传统强势领域,比如棋类游戏中,对战双方的信息相对是很透明的,所有的形势都被摆在了棋盘上,每个决策带来的收益和风险都相对比较明显。
但是像德州扑克这样的游戏,参与者只能看到自己的手牌信息,对手的情况对于AI来说是相对未知的混沌状态。另外在德州扑克里面,参赛者有好几人,每个人对局面都有自己的判断和下注策略,但是最终的赢家只有一个,让游戏的场面更加扑朔迷离。
德州扑克玩家并不知道其他人的手牌
“冷扑”和同时期的AI类似,都是在自我博弈中逐渐成长,但是这个AI使用的算法哲学有一些独特的地方。每次对局结束之后,它都会对之前的结果进行“反思”:如果我作出了不同的决策,结果会不会更好?什么样的决策可以让减小这种“当时要是做了不一样的事情就好了”的遗憾?
这种基于博弈论的算法在国内通常被称为“遗憾最小化算法”。采用深度学习算法的AI,通常在被某种策略击败以后会去学习和模仿这种策略,但“冷扑”的思路则是去分析和研究如何弥补自己的缺陷并反制对手的行动。
在经过不断的优化以后,这种算法还是挺有成效的。在2016年,“冷扑”的前身在人类高手面前还不堪一击,但是一年以后,这个AI已经可以熟练地使用各种阴险的伎俩吊打人类最顶尖的德州扑克大师了。
“冷扑”前身Claudico和“冷扑”的胜率对比
美国五角大楼主要应该就是看重了“冷扑”这种在信息不全面的情况下能够学习和制定策略的能力。德州扑克里面常用的各种诈胡和欺瞒的技巧,在战争中也很适用,作为军事策略模拟中的“对手”或者“指导”应该都有一定价值。“冷扑”的团队将在接下来的两年里,帮助美军改进训练和军事推演的效率。
在“阿尔法狗”战胜李世石和柯洁以后,人工智能在大众眼中的热度稍有减退。但其实在过去几年中,AI的算法一直在飞快演进。除了“冷扑”以外,伊隆•马斯克主导的OpenAI在《DOTA2》这种复杂的竞技游戏里也有很亮眼的表现。
OpenAI设陷阱Gank人类以后传送脱身
AI的发展速度让挺多人都心怀忧虑。去年谷歌和美国国防部的合作项目“Maven”就因为社会和谷歌内部的反对而被迫终止。但是这种大趋势看来是很难阻挡的。世界上的一些主要强国,都展现出了将AI和国防结合起来的意愿。这究竟是好是坏,恐怕只有AI才会给出最终答案。