一尝被完虐的滋味过后,不妨想一想为什么要发展游戏 AI?

东方og视讯

  MaNa是一名星际争霸2的王牌选手,但他在今年一月在游戏中,只持续了超过五分钟,并在屏幕上播放了“GG”这个词。

MaNa在这场比赛中所面临的并不是一个天生的球员,而是AlphaGo的兄弟,AlphaGo的兄弟席卷了Go世界的所有人类球员。

在这一系列的人机战中,AlphaStar还以10:1的比分击败了两位着名的人类选手MaNa和TLO。

▲图片来自:YouTube

现在,普通玩家也可以使用AlphaStar。就在昨天,星际争霸宣布AlphaStar将以匿名方式加入欧洲式阶梯,并与普通玩家竞争。

与1月份的AlphaStar相比,加入阶梯的AlphaStar已经发生了很大的变化。有加强和削弱的部分。

加强的第一部分是对种族的更全面掌握。 1月份,AlphaStar只会玩Protoss,虽然在Protoss的对抗中它击败了神族的前十名MaNa,但要成为一个更全面的玩家,显然还不足以只参加一场比赛,所以新的AlphaStar将会解锁所有比赛。

除了掌握完整的比赛,AlphaStar还将能够掌握更多不同的地图。这也是AlphaStar发展的第二点。

至于弱化部分,它是AlphaStar的手速度。在专业电子竞技运动中,有一个对操作非常重要的指标,即APM(每分钟的操作次数),这只是手的速度。 APM越高,手速越快。

对于人类来说,顶级玩家的APM通常可以保持在400左右。在最极端的状态下,会有一个非常短暂的时刻可以飙升到大约800,而且还有很多无效的操作

然而,在1月份,AlphaStar曾经记录了超过1,500次操作的APM,并持续了整整5秒,其中大部分仍然有效,没有错误。

▲图片来自:YouTube

这也被认为是AlphaStar在大比分击败人类职业选手的能力的关键因素。因此,当涉及到阶梯时,AlphaStar的APM将受到限制,因此操作将返回与人类玩家相同的起跑线。

目前,AlphaStar已经推出了最新版本的欧洲服务。在进入游戏之前,玩家有机会通过选中“同意匹配AI”来匹配AlphaStar。

当然,为了不成为攻击目标,而且为了让AlphaStar能够与人类进行最接近的匹配,AlphaStar将是匿名的,这意味着人类玩家很难从ID中识别出对方是否是一个人或AI。

可以从运营或战略中识别出来吗?估计也很困难。在今年1月与AlphaStar的比赛中,专业球员TLO表示AlphaStar在其多人游戏中具有不同的战略风格和操作习惯。这几乎是难以捉摸的,感觉就像是和不同的人一起玩。相同。

事实上,TLO猜对了,因为DeepMind不仅做了AlphaStar,而且做了各种不同的AlphaStars来吸引他们。在欧洲阶梯比赛中,普通球员,如TLO,面对整个球队。

▲通过不断面对自己的副本并相互消除,制作不同风格的AI玩家。图片来自:YouTube

让AI学会玩游戏,而不仅仅是想滥用自己

人工智能学习游戏的初步认识应该是在AlphaGo击败李世石之后,DeepMind在暴雪嘉年华宣布将与暴雪合作,共同开发星际争霸2游戏AI。

但实际上,早在2003年,人们便开始让AI触摸即时战略游戏。当时,人工智能研究人员Michael Buro和Timothy Furtak发表了一篇论文,称实时战略游戏是测试AI性能的良好平台,并提出开发用于AI研究的开源实时战略游戏引擎。

除了DeepMind之外,许多人工智能公司如OenAI和腾讯AILab正致力于实时战略游戏AI。

▲图片来自:YouTube

那么为什么人类如此痴迷让人工智能在实时战略游戏中滥用自己呢?

这可能来自甚至是战略游戏的特征。

与Go不一样。即使是战略游戏也是“不完美的信息游戏”。

在博弈论中,当参与者在做出选择时不知道其他参与者的选择时,该游戏被称为不完美的信息游戏。

由于战争迷雾(意味着双方无法完全掌握对方的实时操作和状态),AI选择的每一步所带来的效果和好处都无法立即呈现。

这要求AI不仅要用缺失的信息判断情况,还要面对许多不可预见的意外情况进行调整。

此外,这种策略游戏还要求AI除了包括操作,武器组合和游戏操作在内的积极对抗外,还要被隐藏和欺骗。

后两者也是人类先进的心理活动。

令人惊讶的是,AlphaStar不仅实现了高水平的操作和操作,而且还做了隐蔽和欺骗。

▲人机战争的场景。图片来自:YouTube

当然,即时战略游戏AI的发展并不需要AI来欺骗每个人。所有团队的最终目标都是一样的,即通过实时战略游戏AI最终发展成为通用人工智能。

所谓的通用人工智能就是人工智能,可以做任何事情。目前,大多数人工智能都是功能性人工智能,即单一功能。要发展通用的人工智能,远远看不见,听到和说话。最重要的是能够在人类大脑等复杂环境中做出最佳决策。

▲DeepMindCEODemisHassabis。图片来自:Fortune

人工智能培训计划在一个未知的情况下,在紧急情况下做出决策,并在决策后进行实时调整。实时策略游戏将成为通用AI的良好训练场。

正如DeepMindCEODemisHassabis所说:

DeepMind选择挑战星际争霸2的原因是因为实时战略游戏需要高水平的决策而无法完全访问信息,这是AI解决实际问题所需的关键功能。

图片来自:Raconteur