OpenAI 花费 160,000 美元在 Upwork 上为 Minecraft 游戏玩家训练神经网络

2023-05-13 0 685

OpenAI 花费 160,000 美元在 Upwork 上为 Minecraft 游戏玩家训练神经网络

掌握 Minecraft 中的“钻石工具”有多重要?

据人工智能初创公司 OpenAI 称,它的重要性足以花费 160,000 美元。

这是 OpenAI 的一个团队在在线职位列表平台 Upwork 上聘请 Minecraft 玩家提交他们玩游戏的视频所花费的金额。

在本周公布的一篇论文“视频预训练 (VPT):通过观看未标记的在线视频学习行动”中,OpenAI 研究人员 Bowen Baker 和团队在使用大型数据集训练神经网络以模拟人类击键以解决不同问题方面取得了突破 视频游戏中的任务。 (OpenAI 也发布了一篇博文。)

近年来,大量的神经网络通过所谓的强化学习征服了各种类型的游戏,包括 DeepMind DeepMind 的 AlphaZero,它采用了国际象棋、围棋和将棋,以及随后的 MuZero 程序,它增加了处理 Atari 游戏的能力。

Baker 和他的团队想要为 Minecraft 更复杂的“开放世界”游戏环境开发一个神经网络,在这个环境中,一系列击键让玩家拥有比国际象棋或 Atari 游戏更大的自由度。

另外:六十秒人工智能

作者写道,研究文献包括“大量”关于 Minecraft 的工作。 但 VPT 的工作是独一无二的,他们写道,就其范围和规模而言:“据我们所知,没有已发表的工作在完整的、未经修改的人类行为空间中运行,其中包括拖放式库存管理和 物品制作。”

构建称为 VPT 的神经网络的工作分两个阶段进行。 第一阶段需要人类游戏玩家或承包商,他们组装了 4,500 小时的游戏时间。 研究人员后来发现,他们实际上只需要大约 2,000 小时。

Baker 和团队描述了这个过程:

我们开放了一天的申请,然后随机选择了 10 名申请者作为第一轮承包商。 在项目的后期,由于我们需要更多数据并且一些承包商要求终止合同,我们从原始池中添加了更多申请人以及当前工作承包商的推荐。 承包商每小时支付 20 美元(减去 Upwork 平台费用和适用税费)。 本文中呈现的所有结果均基于大约 4,500 小时的数据(包括为收集未用于训练的人类游戏统计数据而记录的数据),我们花费了大约 90,000 美元。 在项目过程中,我们收集了一些由于记录器中的错误而没有使用的数据,以及一些我们最终没有追求的想法。 在整个项目过程中,我们总共花费了大约 16 万美元用于承包商补偿。 然而,正如我们在第二节中讨论的那样。 4.6,我们很可能使用仅使用价值 2000 美元的数据训练的 IDM 获得大部分结果,即基础 VPT 模型、对 earlygame_keyword 数据集的 BC 微调和 RL 微调结果。 收集 contractor_house 数据集的成本约为 8000 美元。 因为我们使用了经过约 2000 小时承包商数据训练的 IDM,因此这些结果的承包商数据的实际成本约为 40,000 美元。

在这 4,500 小时中,他们将标签贴在游戏视频的帧上,以执行诸如“库存”之类的操作,以使用“E”键检查玩家的物品集合; 和“潜行”,使用 SHIFT 键在当前方向“小心”移动。 这些动作在游戏进行的每个时刻都被记录为 JSON 文本字符串,并与视频帧一起存储。

带有标记动作的游戏帧被用来训练一个称为逆向动力学模型或 IDM 的神经网络,它学习什么动作与什么帧相关。 IDM 是多种神经网络的混合体,包括 3-D 卷积神经网络和用于解析视频帧的 ResNet,以及用于预测下一个视频帧的多个 Transformer 注意力网络。

然后,IDM 训练有素的能力被用于更大的视频片段集,从网络上收集的总共 70,000 小时未标记的 Minecraft 片段。 IDM 将“伪标签”应用到这个大得多的集合。 换句话说,IDM 和承包商费用是引导庞大视频训练集的一种方式。

作者写道,尽管承包商付款看起来很昂贵,但这种方法可以节省大量成本。 如果他们必须收集相当于 70,000 小时网络视频的承包商数据,那将要昂贵得多。

“如果我们能够廉价地收集一个与 web_clean 数量级相似的标记承包商数据集,那么这并不重要;但是,收集这种规模的数据将花费数百万美元。”

利用这 70,000 小时,作者随后训练了第二个神经网络,该网络也由 Transformer 层组成,以模仿视频中的用户动作,这种常见做法被称为“行为克隆”。

这项工作的重点是找到一种方法来训练通用计算机“代理”,该代理可以使用互联网上没有标签的大量数据来解决涉及因果关系、意义和动作序列的任务。 从一个到另一个的必要关系。

“本文提出的结果有助于为将网络上大量未标记数据用于顺序决策域铺平道路,”他们写道。

他们建议,这项工作可以想象用于需要鼠标点击序列和其他人类操作员控制的大量计算机任务。

“虽然我们只在 Minecraft 中进行实验,但我们相信 VPT 提供了一个通用方法,可以在任何具有大量免费可用的未标记数据(例如计算机使用情况)的领域中,在困难但通用的动作空间中训练行为先验。”

Open-AI 以名为 GPT-3 的大型语言程序而闻名,该程序也使用基于大量未标记 Web 数据的“预训练”方法。 从某种意义上说,Minecraft 游戏正在将这种方法扩展到模仿通过视频捕获的顺序计算机任务领域中的行为。

最终的成就在某些情况下超过了人类完成最艰巨任务之一所需的时间,即获得钻石镐。

在 Minecraft 中,基于钻石的工具只会持续更长时间并且可以造成更大的伤害。 钻石镐是唯一对大多数游戏玩家特别重要的工具。 您需要一把钻石镐来开采黑曜石和一种称为下界合金的虚构材料,这两种材料对于附魔台和制作下界合金设备等残局活动都很重要。

在训练 VPT 学习各种 Minecraft 任务后,作者使用“微调”方法开发了强化学习神经网络,以比正常时间更快地制作钻石镐。

“为了证明 RL 微调的功效,我们选择了具有挑战性的目标,即从全新的 Minecraft 生存世界开始,在 10 分钟内获得一把钻石镐,”他们写道。

这对人类来说是一个挑战,如果他们能做到的话,他们通常需要两倍的时间才能做到:

这样做涉及获得一系列难以获得的物品,这些物品需要复杂的技能,例如采矿、库存管理、使用和不使用工作台进行制作、工具使用、操作熔炉以及在最低深度采矿,那里有许多危险,例如敌人 和熔岩存在(图6)。 增加难度的是,掉落物品、毁坏物品或死亡很容易导致进度丢失。 熟练的人类通常需要 20 分钟以上(24,000 次动作)才能获得钻石镐。

在汇集承包商数据和未标记的 70,000 小时网络视频时,作者注意到攻击性内容的可能性。 “承包商理论上可以使用 Minecraft 的开放世界属性来生成个人身份信息和/或冒犯性内容(例如,通过使用 Minecraft 方块写下他们的名字或冒犯性信息,然后找到一个可以看到该信息的地方),”他们说 写,尽管他们在作者观看的承包商视频中没有看到这一点。

“当然,我们在互联网上玩 Minecraft 的人的视频上训练我们的 BC [行为克隆] 模型,如果这些视频中有这种行为,我们的模型也有可能学习它,尽管我们预计这种行为非常罕见,以至于我们的模型 不太可能重现它,”他们写道。

这样的总代理接下来会去哪里呢? 这个想法是,征服了钻石斧头、VPT 或其后代,可以做人们用鼠标和键盘可能做的各种事情,包括嘘声票、浏览社交媒体或导航地图。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 OpenAI 花费 160,000 美元在 Upwork 上为 Minecraft 游戏玩家训练神经网络 https://www.7claw.com/56379.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务