人类玩家血流成河!最反 AI 的马斯克,开发称霸《Dota

2020-06-16  阅读 400 次 作者:

人类玩家血流成河!最反 AI 的马斯克,开发称霸《Dota

这个週末的科技圈再次被「AI 恐惧」刷屏,这次打败人类的 AI 来自 Elon Musk 的 OpenAI。週末凌晨的 DOTA2 人机大战中,顶级人类玩家 Danylo “Dendi” Ishutin 被 AI 完败。

到底这次人机大战意义何在?这次在一对一 DOTA2 中打败 Dendi 到底比 AlphaGo 更难还是更容易?

众说纷纭中,我们认为前 Google 大脑和史丹佛研究员 Denny Britz 的这篇评论文章相对中肯和理性,也得到了不少学者的力挺:「这个问题实际上比击败人类围棋冠军容易得多。我们并没有在 AI 中突然进步」。

人类玩家血流成河!最反 AI 的马斯克,开发称霸《Dota

DOTA 界的大神们在昨天受到了暴击,在堪称「DOTA 届世界杯」的 T17 邀请赛中,顶级人类选手被 OpenAI 训练了两週的 AI 打败。各类如「攻陷 DOTA2」、「完虐人类」的字眼纷纷出现,不免让人想起之前 AlphaGo 大战柯洁的盛况。

Elon Musk 本人也在推特上强推了这次人机大战,他认为 DOTA2 比围棋複杂很多,所以这次获胜的机器人也比 AlphaGo 要厉害。当然,马斯克也没忘记再次提起 AI 和所有事物一样需要被监管。重提几个星期前和众多技术大佬吵得沸沸扬扬的旧梗,让不少人怀疑这是为了媒体炒作吸引眼球。

人类玩家血流成河!最反 AI 的马斯克,开发称霸《Dota

前 Google 大脑和史丹佛研究员 Denny Britz 就这件事发表了自己的看法:

人类玩家血流成河!最反 AI 的马斯克,开发称霸《Dota

Denny Britz 相对客观的罗列了这件事的成就和浮夸之处,以下是全文的编译:

当我看到今天 OpenAI 的 DOTA2 机器人在国际(The International)电竞大赛上击败人类玩家的消息时,我兴奋得跳起来。

该锦标赛的奖金池超过了二千四百万美元,作为一名电竞运动迷,我虽然从来没有玩过 DOTA 2,但是我经常在线上观看其他电竞比赛,高中时还是半​​专业选手。但更重要的是,像 DOTA 这样的多人在线战术竞技游戏(MOBA),以及「星海争霸 2」这样的实时战略(RTS)游戏,被视为超越了当前人工智能技术的能力。

这些游戏需要长期的战略决策,多人合作,并且相比 AI 技术在过去几十年中「解决」了的西洋棋、围棋或扑克类游戏,具有明显更複杂的状态和动作空间。

DeepMind 已经在星海争霸 2 上工作了一段时间,几天前发布了他们的研究环境。

到目前为止,研究人员还没有取得重大突破。据认为,我们仍需要至少 1-2 年才能在星海争霸 2 上打败人类。

这就是为什幺 OpenAI 今天这条消息如此令人震惊。怎幺会这样呢?难道我错过了最近 AI 发展的重大突破?当我开始更多地了解 DOTA 2 机器人正在做什幺,它是如何训练的,以及它的游戏环境后,我得出的结论是, 这是一个令人讚叹的成就,但也不是媒体想让你相信的 AI 大突破 。

本文的目的是: 对于哪些才是真正的新东西,我愿意提供一个理性清醒的解释。过度炒作 AI 进展非常危险,比如 Elon Musk 昨天误导人的推特。

首先我要说明,炒作或不正确的假设并非 OpenAI 研究人员的错误, OpenAI 传统上一向对其研究贡献的局限性非常直观明了,我相信在他们今天也一如既往。OpenAI 还没有公布他们方案的技术细节,所以对于外行而言,很容易就得出错误的结论。

我们先来看看 DOTA 2 机器人解决的问题实际上有多困难。跟 AlphaGo 相比怎幺样?

1. 1 对 1 与 5 对 5 是没有可比性的。在 DOTA 2 的一个基本游戏中,一队 5 名选手对阵另外 5 人。这些游戏需要高级战略制定,团队沟通和合作,通常需要 45 分钟左右的时间。

而 1 对 1 的游戏受到更多限制,两名选手基本上沿着单线行驶,并试图杀死对方,通常在数分钟内结束。在 1 对 1 中击败对手需要机械技能和短期战术,但没有任何对当前的 AI 技术来说具有挑战性的需求,如长期规划或团队协调。事实上,你需要採取的有效操作数量少于围棋游戏。有效的状态空间(玩家对游戏中当前局面的掌控),如果以比较聪明的方式表示,应该比围棋还要小。

2. 机器人可以访问更多信息:OpenAI 机器人(很可能)构建在游戏机器人 API 之上,可以访问人类无法访问的各种信息。即使 OpenAI 研究人员限制其访问某些类型的信息,机器人仍然可以访问比人类更準确的信息。

例如, 某项技能只能在一定範围内击中对手,而人类玩家必须观看屏幕并且估计当前与对手的距离,这需要练习。机器人知道确切的距离,并可立即决定是否使用技能 。获得各种精确的数字信息是一个很大的优势。事实上,在游戏过程中,可以看到机器人数次在最大距离上使用技能。

3. 反应时间:机器人可以立即反应,人类却不能。再加上上述的信息优势,这是另一大优势。例如,一旦对手超出特定技能範围,机器人可以立即取消某项技能的使用。

4. 学习使用一个特定的角色:游戏中有 100 个不同的角色,具有不同的天赋能力和优势。机器人学习玩的唯一的角色是 Shadow Fiend,通常会立即进行攻击(而不是在一段时间内持续的更複杂的技能),作为机器人,得益于信息优势和快速的反应时间。

鉴于 1 对 1 主要是机械技能的游戏,AI 击败人类玩家并不奇怪。对 OpenAI 而言,由于环境受到严格限制,(很大可能)可用的操作也受到限制,而且很少或者完全没有进行长期规划或协调的需要, 我得出的结论是,这个问题实际上比击败人类围棋冠军容易得多。我们并没有在 AI 中突然进步 。它的成功,是因为我们的研究人员用正确的方式,聪明地设置了需解决的问题,把当前技术用到极致。据说机器人的训练时间大概是 2 週左右,也说明真相确实如此。AlphaGo 需要在 Google 的 GPU 集群上进行数月高强度的大规模培训。从那以后我们取得了一些研究进展,但并没有将计算要求降低一个数量级。

现在,批评够多啦。新闻炒作可能有点过度,但不妨碍这次人机大战的胜利依然很酷的事实。显然,大量具有挑战性的工程和合作建设才实现这一切。下面这次 DOTA 机器人很厉害的地方:

1. 完全通过自我训练:这个机器人不需要任何训练数据,它也不会从人类的演示中学习。它完全随机开始,并且不断地跟自己对练。虽然这种技术并不是什幺新鲜事物,但令人惊讶的是(至少对我来说),机器人自己就学习到了人们使用的技术,如 Reddit 和 Ycombinator 上评论中所提出的。我不太了解 DOTA 2,所以无法判断这一点,但是我觉得非常酷。机器人可能还有其他人类不知道的技术。这与我们在 AlphaGo 中看到的类似,人类玩家开始从其非常规的动作中学习,并调整了自己的游戏方式。

2. AI +电竞需要迈出的一大步:在具有挑战性的环境(如 DOTA 2 和 Starcraft 2)上来测试新的 AI 技术非常重要。如果我们可以说服电子竞技社区和游戏发行商,我们可以通过将 AI 技术应用于游戏来提供价值,我们可以期待得到大力支持,这会加速 AI 进展。

3. 部分可观察的环境:虽然 OpenAI 研究人员如何用 API 处理这个问题的细节尚不清楚,但是人类玩家只会看到屏幕上的内容,并且可能在视角上会有一些限制,比如上坡下坡的树林阴影。这意味着,与围棋或像棋或 Atari(更像扑克)这样的游戏不同,我们处于部分可观察的环境中——我们无法访问有关当前游戏状态的完整信息。

这些问题通常难以解决,是急需更多进展的研究领域。话虽如此,目前还不清楚 1v1 DOTA2 比赛的部分可观察性是多幺重要——这里也没有太多可以策划的。

所有这些中,最重要的是,我非常期待可以看到 OpenAI 的技术报告,看看他们到底是怎幺搭建这个系统的。

人类玩家血流成河!最反 AI 的马斯克,开发称霸《Dota

——

授权转载,并同意 TechOrange 编写导读与修订标题,原文标题为 〈在 DOTA2 中获胜的 AI 真的比 AlphaGo 厉害吗?〉。图片来源:Sergey Galyonkin, CC Licensed 。)

上一篇:
下一篇: