小心,GPT-3,AI21 的“侏罗纪”语言模型来了

2023-06-05 0 528

小心,GPT-3,AI21 的“侏罗纪”语言模型来了

有什么比 1750 亿参数的自然语言处理程序更大?

当然是一个 1780 亿参数的程序。 这只是侏罗纪的一个特点,侏罗纪是特拉维夫人工智能初创公司 AI21 Labs 于周三推出的计算机程序。

当然,GPT-3 是来自旧金山初创公司 OpenAI 的语言程序,它在 2020 年通过生成看起来很像人类的句子和整篇文章震惊了世界。 GPT-3 还被 OpenAI 限制在相当严格的 Beta 测试安排中,震惊了世界。

AI21 承诺不会让 OpenAI 变得更好,而是两个更好,它声称在一项被称为“少量学习”的测试中获得了卓越的基准测试结果,并为 beta 测试人员提供了一个更开放的程序。

在后者方面,AI21 正在将该程序的开发使用作为“公开测试版”提供,它说,任何人都可以注册使用该程序,并且“没有等待名单”。

但是,文本生成量在测试版模型中受到限制。 要部署可按需提供预测服务的生产质量代码,各方必须提交商业级服务申请并获得 AI21 批准。

然后使用 AI21 的开发程序 AI21 Studio 来开发和部署定制的语言模型。

这家初创公司的名字代表“21 世纪的人工智能”,其高管和顾问中有一些重量级人物。

创始人是斯坦福大学教授Yoav Shoham,担任联席CEO; 连续创业者 Ori Goshen,另一位 CEO; 和 Amnon Shashua,他是英特尔 Mobileye 部门的首席执行官,该部门为自动驾驶汽车制造芯片,他还是耶路撒冷希伯来大学的计算机科学教授,并拥有许多机器学习研究项目。

顾问包括自动驾驶汽车先驱塞巴斯蒂安·特伦 (Sebastian Thrun) 和斯坦福大学教授兼人工智能计算机制造商 SambaNova Systems 的联合创始人克里斯·雷 (Chris Ré)。

AI21 在两轮风险投资中获得了 3540 万美元。

除了新闻稿外,AI21 还发布了一份白皮书,描述了 Jurassic 的架构和针对 GPT-3 的基准测试结果。 该论文由联合首席执行官 Shoham 以及 AI21 员工 Opher Lieber、Or Sharir 和 Barak Lenz 共同撰写。

本文详细介绍了侏罗纪的建筑,以及不同功能元素的布局。 在大多数方面,Jurassic 正在复制 OpenAI 在 GPT-3 中所做的事情,但有一个关键的偏离。

希伯来大学 Shashua 及其同事在去年的 Neurips AI 会议上提出的理论见解使这一出发成为可能。

这项由 Yoav Levine 以及 Shashua、Noam Wies、Or Sharir 和 Hofit Bata 领导的研究认为,神经网络在所谓的宽度和深度之间存在重要的权衡。

神经网络深度是人工神经元的层数,通过这些神经元顺序处理给定的输入数据。 人工智能“深度学习”形式的核心是更多层,因此更深。 OpenAI 的 GPT-3,以其“规范”形式,具有 1750 亿个参数,深度为 96 层。

相比之下,宽度是存储输入表示的向量的维度。 对于 GPT-3,这通常是一个维度为 12,288 的向量。

在 Levine 和团队的研究中,他们发现过多的层会导致“自我关注”类型的深度学习程序的结果递减,这就是 GPT-3,所有类似的程序都是建立在原始基础上的 来自 Google 的 Transformer 程序。

正如他们所说,“对于给定的网络规模”,意思是参数的数量,“某个网络可能太浅,正如我们在上面的理论预测和经验证实的那样,但它也可能太深。” 因此,Levine 和团队得出结论,他们是构建自然语言程序的最佳深度-宽度平衡。

AI21 的 Shoham 及其同事在他们的论文中详述了这种见解。 “对于给定的参数预算,存在最佳深度。” 具体来说,他们将 GPT-3 的 96 层替换为仅 76 层,并将 GPT-3 的矢量宽度 12,288 替换为宽度 13,824。

根据莱文的研究,这最终应该赋予侏罗纪所谓的更大的“表现力”,这应该是其语言输出的质量。 然而,AI21 研究人员观察到,与 GPT-3 相比,在 GPU 上运行他们的程序时“运行时性能有了显着提高”:

通过将计算资源从深度转移到宽度,可以并行(宽度)而不是顺序(深度)执行更多操作。 这与一次处理一个标记的文本生成尤其相关,因此并行化的机会较少,导致 GPU 利用率不佳。 在我们的基准测试中,将我们的架构与相同硬件配置上的 GPT-3 175B 进行比较,我们的架构在训练时间(每次迭代加速 1.5%)方面具有适度优势,但在批量推理(7%)和文本生成(26 %)。

Shoham 和团队对 Jurassic 所做的另一件事是增加词汇量,即程序可以摄取和跟踪的唯一标记的数量,从 GPT-3 使用的 50,000 个增加到 256,000 个。 他们还超越了将标记用作单词的范围,而是使用他们所说的“词汇项”,其中的单元“包含单词片段、完整单词和多单词表达的丰富组合”。

AI21 研究人员再次引用 Levine 和团队的工作,认为这种对标记的灵活使用“与文本的语义单元更紧密地对齐,包括命名实体和常用短语”,因此提供了“几个优势,例如 样本效率更高的培训。”

几个优势包括与 GPT-3 相比似乎大大提高了应试率。 他们提供的数据声称 Jurassic 的 1780 亿个参数在所谓的“零镜头”任务中的准确性与 GPT-3 相当,其中在测试时没有向程序提供人类书写的示例。

然而,Shoham 和团队的主要关注点是 GPT-3 特别擅长的地方,即被称为“小样本学习”的测试,其中几个示例首先由一个人输入,语言程序通过基本上延续 那些例子。

想想古老的类比游戏,“微软之于台式电脑就像苹果之于手机,汉堡王之于汉堡就像肯德基之于 ______”,语言程序必须弄清楚所问的答案类型 对于基于关系模式的空白。 这是少数几个镜头,它可以用于很多类型的任务,包括是-否问题回答和多项选择题回答。

在这里,作者声称更灵活地使用令牌的好处。 “它的一个好处是,在少量学习设置中,更多的训练示例可以适合提示。” 因此,使用与给定 GPT-3 相同的训练示例总数,他们声称具有更高的准确性,特别是因为更多示例可以适合提示。

尽管声称他们认为这是更好的结果,但 Shoham 和他的团队预先指出“对小样本学习的评估是出了名的棘手,受制于快速选择的变幻莫测。”

因此,Shoham 和团队开发了一个测试套件来解决这些挑战,方法是将非常大的模型相互进行基准测试。 他们已经在 GitHub 上发布了该代码。

虽然测试结果可能会随着人们的努力而以多种不同方式进行审查,但 AI21 更大的目标似乎是在 OpenAI 墙的另一侧构建一个更易于访问的 GPT-3,以利用它作为 许多用户希望访问该功能的业务。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 小心,GPT-3,AI21 的“侏罗纪”语言模型来了 https://www.7claw.com/57292.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务