OpenAI：用“捉迷藏”游戏训练AI学会团队合作

2019-09-18 15:13 来源: AI星球

创建能够解决各种复杂的人类相关任务的人工智能代理一直是AI社区长期面临的挑战。

编译 | 油人

编辑 | 奇点

公众号 | AI星球

古老的捉迷藏游戏可以揭示人工智能如何衡量其所面临的决策，更不用说为什么它在其影响范围内与其他AI相互作用的方式了。

这是旧金山人工智能研究公司OpenAI的研究人员发表的一篇新论文的要点，该公司得到了LinkedIn联合创始人Reid Hoffman等人的支持。

这篇论文描述了大量的AI控制代理如何在虚拟环境中释放，学会了越来越复杂的隐藏和寻找方法。

测试结果表明，竞争中的双代理团队以比任何单一代理更快的速度进行自我改进，合著者称，这表明可以利用其他人工智能领域的力量来提高效率。

如今，在开源中所提供的捉迷藏式AI训练环境被OpenAI、DeepMind和谷歌所采纳，为人工智能难题提供众包解决方案。

去年12月，OpenAI发布了CoinRun，旨在测试强化学习代理的适应性。最近，它推出了Neural MMO，这是一个强大的强化学习模拟器，可以在类似RPG的世界中扮演代理人。

展开全文

6月，谷歌的Google Brain部门开源了Research Football Environment，这是一个3D强化学习模拟器，用于训练AI掌握足球。

DeepMind上个月揭开了OpenSpiel的面纱，OpenSpiel是一系列用于视频游戏的AI训练工具。

“创建能够解决各种复杂的人类相关任务的人工智能代理一直是AI社区长期面临的挑战，”合著者在最新的论文中写道。

“与人类特别相关的是能够感知和与物理世界中的物体互动的代理。”

训练和比赛

捉迷藏式代理人倾向于强化学习，这种技术利用奖励来推动软件策略实现目标，通过反复试验进行自我学习。

近年来，强化学习与强大的计算能力相结合取得了巨大的成功，但它也有其局限性。

指定奖励功能或收集演示以监督任务可能既耗时又昂贵。（最先进的方法要求对专家演示数据进行监督性学习，并使用奖励来进一步提高效率。）

此外，任务描述限制了单一代理强化任务中的学习技能；一旦代理人学会解决任务，就没有太大的改进空间。

研究人员反而采用了他们称之为“无向探索”的策略，即代理人在对游戏世界的理解中自由发展，以制定创造性的制胜策略。

它类似于DeepMind科学家去年倡导的多代理学习方法，在一项研究中，多个AI系统经过训练，可以在《Quake III Arena》游戏中玩夺旗。

与这项研究一样，人工智能代理事先没有学过游戏规则，但它们随着时间的推移学会了基本策略，并最终在技能上超越了大多数人类玩家。

微软的Suphx AI、OpenAI的OpenAI Five、DeepMind的AlphaStar和Facebook的Pluribus分别采用类似的策略掌握了麻将、Dota 2、星际争霸II和德州扑克。

手握捉迷藏目标，几个代理在短暂的阶段之后不得不避开竞争对手的视线，在这个阶段，这些竞争对手被固定，而寻找者则被指示密切关注躲藏者。（在这种情况下，“视线”是指个体代理面前的135度视锥细胞。）

如果代理在游戏区域外冒险太远而被迫在随机生成的房间和墙壁上进行导航，并且它们可以拾取分散在整个环境中无限期锁定到位的物体（主要是盒子），那么代理则会受到惩罚。

代理在训练过程中发现了多达六种独特的策略，每种策略都迫使它们进入下一个游戏阶段。

起初，躲藏者和寻找者只是逃跑并互相追逐，但在大约2500万次捉迷藏之后，躲避者学会了通过将箱子移到一起并靠墙来建造隐蔽的庇护所。

经过另外7500万场比赛后，寻找者们移动并使用坡道跳过箱子进入庇护所，随后又进行了1000万次比赛，躲藏者开始将斜坡带到游乐区的边缘并将其锁定到位阻止寻找者使用它们。

最后，在总共3.8亿次比赛之后，寻找者自学了将箱子带到游乐区的边缘，并有效地将它们“冲浪”到躲藏者的庇护所，充分利用游戏空间允许它们随着盒子一起移动的事实。

受过训练的代理学会了协调劳动，例如分别将它们自己的箱子带到一个未经建造的庇护所的地点。

此外，它们形成一个团队进行相互保护，试图通过在准备阶段锁定箱子来抵御寻找者的箱子冲浪。

据研究人员称，规模在这方面发挥了关键作用。默认模型需要1.323亿次、超过34小时的训练才能达到技能进步的“斜坡防御”阶段，较大的规模通常会导致更快的训练时间。

例如，将参数数量（从历史训练数据中学习的模型部分）从50万增加到580万，样本效率则提高了2.2倍。

基准稳健性

为了评估代理的稳健性，研究人员设计了一套五个基准智能测试，分为两个领域：认知和记忆。

所有测试都使用相同的操作空间、观察空间和对象类型作为捉迷藏环境：

对象计数任务测量代理是否具有对象持久性感（即使无法察觉，事物仍然存在的理解）。
第二个任务——锁定和返回——测量代理是否可以在执行新任务时记住其原始位置。
在顺序锁定中，四个盒子位于三个没有门的随机房间，但每个房间都有一个坡道。代理必须按照之前未观察到的特定顺序锁定所有箱子。
在“构建蓝图”任务中，代理必须在多达四个目标站点的顶部放置箱子。
在庇护所建设任务中，代理必须在圆筒周围建造一个箱子庇护所。

在其中三个任务中，在捉迷藏环境中预先训练的代理学得更快，并且获得比两个基线更高的最终奖励。

它们在“锁定和返回”、“顺序锁定”和“构建蓝图”做得稍微好一点，但是在对象计数和庇护所建设方面表现更差。

研究人员将这些混合的结果归咎于既“纠缠”又难以微调的技能表现。

“我们推测捉迷藏预训练优于基线的任务是由于重复学习的特征表示，而剩余任务要优于基线则需要重复学习技能，这要困难得多，”他们写道。

“该评估指标强调了开发技术的必要性，以便从一个环境中训练的策略到另一个环境中仍然能够有效地被重复使用。”

未来的工作

那么从中得到了什么呢？简单的游戏规则、多代理竞争和大规模的标准强化学习算法可以刺激代理学习无人监督的复杂策略和技能。

研究人员写道：“这些设置的成功激发了人们对这些环境可能最终使代理获得无限技能的信心。它导致的行为比其他自我监督的强化学习方法能够学会更多的人类技能。”

这些进步不仅仅是为了推动游戏设计。

研究人员声称，他们的工作是迈向可能产生“物理基础”和“人类相关”行为技术的重要一步，并且可能支持诊断疾病、预测复杂蛋白质结构和分割CT扫描的系统。

“游戏人工智能是通用人工智能的踏脚石，”DeepMind联合创始人Demis Hassabis在采访中表示。“我们测试自己和所有这些游戏的原因是，它们是我们开发算法一个非常方便的试验场。

最终，我们正在开发可以转化到现实世界的算法，以解决真正具有挑战性的问题，并帮助这些领域的专家。”

End

返回搜狐，查看更多

责任编辑：

平台声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。

阅读 ()