为了在增强现实和虚拟现实中运作,Facebook 认为人工智能需要发展“以自我为中心的视角”。
为此,该公司周四发布了 Ego4D,这是一个包含 2,792 小时第一人称视频的数据集,以及一组神经网络基准测试,旨在鼓励人工智能的发展,使其更了解穿越时的感受 第一人称视角的虚拟世界。
该项目是 Facebook Reality Labs 与来自 13 个研究机构的学者的合作,包括学术机构和研究实验室。 Facebook 的克里斯汀·格劳曼 (Kristen Grauman) 牵头撰写的论文“Ego4D:环游世界 2.8K 小时的以自我为中心的视频”中列出了详细信息。
Grauman 是该公司 Facebook 人工智能研究部门的科学家。 她作为 UT Austin 教授的背景一直专注于相关主题的计算机视觉和机器学习。
这个想法是,该数据集将推动研究人员开发出擅长从第一人称视角执行任务的神经网络——就像 ImageNet 等大型数据集从“旁观者”视角推动现有人工智能程序一样。
Facebook 表示,自我中心感知的目的是试图解决神经网络在基本任务方面存在的问题,例如当图像的视角从第三人称转变为第一人称时的图像识别。
如果从遇到对象的人的角度呈现对象,则大多数可以检测从边线看到的对象的图像识别系统的故障率很高。
Ego4D 计划专门针对 Metaverse,这是 Facebook 首席执行官马克扎克伯格在公司上一份收益报告中讨论的沉浸式社交网络的未来世界。
“这些基准将促进对开发更智能的 AI 助手所必需的构建模块的研究,这些助手不仅可以在现实世界中理解和交互,而且可以在 metaverse 中理解和交互,在虚拟世界中,物理现实、AR 和 VR 都聚集在一个空间中,” 脸书说。
2,792 小时的视频是由 Facebook 工作人员使用各种相机收集的。 Vuzix 制造的 Vuzix Blade 增强现实耳机只是其中之一,其他产品还包括 GoPro、Pupil Labs、ZShades 和 Wee-view。 混合不同集合的目的是避免“过度拟合”,Grauman 和合作者写道,这是神经网络记住视频信息帧的现象,而不是调整以推断差异之间的相似性。
Facebook 表示,该视频“由来自全球 73 个地点和 9 个不同国家的 750 名独特的相机佩戴者拍摄”。 其中一些是由公司校园内的 Facebook 员工完成的,一些是由大学合作者完成的。
Ego4D 中的“4D”指的是视频的时间方面 Facebook 的工作人员花了 250,000 小时查看并提供口头旁白,总结视频中发生的事情,并附上时间戳。
Facebook 表示,这些旁白“时间密集”,因为“平均每分钟视频我们收到 13.2 个句子,总共 385 万个句子。旁白总共使用 1,772 个独特的动词(活动)和 4,336 个描述 Ego4D 的视频 独特的名词(对象)。”
该数据集旨在用于开发将在各种新基准测试中执行的神经网络。 为此,Grauman 和合作者描述了他们创建的几个新测试,这些测试需要神经网络能够对以下内容做出响应:过去的任务,例如回忆; 当前的任务,例如对活动进行分类; 或未来预测,例如对行动结果的描述。
例如,神经网络的一项任务可能是回答自然语言查询,该查询要求程序将查询内容与视频帧相匹配。 一个例子是问计算机,“我什么时候给我的孩子读书?” 计算机必须找到相机佩戴者正在给孩子读书的场景。 该任务由人工注释人员标记,他们获得了预先格式化的标签列表,并且必须将这些标签分配给剪辑。
Facebook 表示他们有 74,000 个查询以这种方式分配给 800 小时的视频。
在未来的预测测试中,计算机可能必须预测相机佩戴者接下来将与视频帧中的哪个对象进行交互。 因此,如果他们在桌子旁揉面团,预测的下一个动作可能是在桌子上抓起一团面团。 该程序将通过选择注释人员附加到视频帧的预设动词列表中的一个来进行预测,并附加时间估计,例如吐出“在 0.8 秒内取出面团”。
Facebook 表示,Ego4D 的数据集将于下个月在 Github 上发布。 用户将被要求签署数据使用协议。