DeepMind、谷歌、Meta 和 OpenAI 等公司发布的新 AI 模型正在愈演愈烈。 他们每个人在某种程度上都是不同的,他们每个人都在更新关于他们的成就、应用和影响的对话。
Imagen,像 DALLE-2、Gato、GPT-3 和他们之前的其他 AI 模型都令人印象深刻,但也许不是你想的那样。 下面简要介绍一下我们在 AI 竞赛中所处的位置,以及我们目前学到的知识。
大型语言模型的优缺点
以这种速度,跟踪发布变得越来越困难,更不用说分析它们了。 让我们从 GPT-3 开始这个时间线。 出于多种原因,我们选择 GPT-3 作为该时间线的基准和起点。
OpenAI 的创建于 2020 年 5 月宣布,这看起来已经是很久以前的事了。 这足以让 OpenAI 围绕 GPT-3 创建商业服务,通过与微软的合作将其作为 API 公开。
到目前为止,越来越多的应用程序在后台利用 GPT-3 为最终用户提供服务。 其中一些应用程序只不过是美化的营销文案生成器——GPT-3 API 的薄包装。 其他人,如 Viable,已经定制了 GPT-3 以适应他们的使用并绕过它的缺陷。
GPT-3 是一个大型语言模型 (LLM),“大型”指的是模型特征的参数数量。 目前 AI 专家之间的共识似乎是模型越大,即参数越多,它的性能就越好。 作为参考,让我们注意到 GPT-3 有 1750 亿个参数,而 BERT,谷歌在 2018 年发布的标志性 LLM,如今用于为其搜索引擎提供动力,有 1.1 亿个参数。
LLM 的想法很简单:使用大量人类产生的知识数据集来训练机器学习算法,目标是生成模拟人类如何使用语言的模型。 GPT-3 被更广泛的受众访问以及商业使用这一事实使其成为赞扬和批评的目标。
正如 Steven Johnson 在《纽约时报》上所写,GPT-3 可以“以令人难以置信的流利度写出原创散文”。 这似乎引诱人们,包括约翰逊在内,想知道是否真的有“攻壳机动队”。 Johnson 写道,GPT-3 似乎在操纵高阶概念并将它们放入新的组合中,而不仅仅是模仿文本模式。 然而,这里的关键词是“似乎”。
Gary Marcus、Gary N. Smith 和 Emily Bender 等批评者指出了 GPT-3 在最基本层面上的根本缺陷,其中一些也被约翰逊引用。 用 Bender 和她的合著者用来给 Timnit Gebru 和 Margeret Mitchell 从谷歌开除的现在著名的研究论文起标题的话,法学硕士是“随机鹦鹉”。
法学硕士逐字预测以得出其散文的机制本质上是反流,马库斯写道,引用了他与著名语言学家诺姆乔姆斯基的交流。 Marcus 阐述说,这样的系统是根据数十亿字的数字文本进行训练的; 他们的天赋在于找到与他们所接受的训练相匹配的模式。 这是统计学的一项最高成就,但并不意味着,例如,系统知道它用作预测工具的单词的含义。
针对 GPT-3 和其他 LLM 的另一股批评是,它们产生的结果往往倾向于表现出毒性并再现种族、种族和其他偏见。 这真的不足为奇,请记住用于培训 LLM 的数据来自何处:数据全部由人生成,并且在很大程度上是从网络上收集的。 除非采取纠正措施,否则完全可以预料 LLM 会产生这样的输出。
最后但同样重要的是,法学硕士需要大量资源来培训和运营。 乔姆斯基关于 GPT-3 的格言是“它唯一的成就就是耗尽了加州的大量能源”。 但乔姆斯基并不是唯一指出这一点的人。 2022 年,DeepMind 发表了一篇论文“训练计算优化的大型语言模型”,其中分析人士声称,LLM 的训练是在对计算的深度次优使用下完成的。
总而言之,GPT-3 在某种程度上已经是旧闻了。 在过去的几个月里,有许多新的法学硕士被宣布。 2021年10月,微软和英伟达宣布威震天——拥有5300亿参数的图灵NLG。 2021 年 12 月,DeepMind 宣布了具有 2800 亿个参数的 Gopher,Google 宣布了具有 1.2 万亿个参数的 GLaM。
2022 年 1 月,Google 公布了具有 1370 亿个参数的 LaMDA。 2022 年 4 月,DeepMind 公布了 700 亿参数的 Chinchilla,Google 公布了 5400 亿参数的 PaLM。 2022年5月,Meta公布了拥有1750亿参数的OPT-175B。
无论是规模、性能、效率、透明度、训练数据集组成还是新颖性,这些 LLM 中的每一个在某些方面都是卓越而独特的。 虽然这些法学硕士中的大多数仍然不为公众所接受,但内部人士偶尔会对这些模型所谓的“理解”语言的能力大加赞赏。 然而,这样的说法似乎有些夸张。
将 AI 的极限推向语言之外
虽然 LLM 在扩展能力和产生的结果质量方面取得了长足的进步,但它们的基本前提保持不变。 因此,它们的基本弱点也保持不变。 然而,当涉及到 AI 的前沿时,法学硕士并不是镇上唯一的游戏。
虽然 LLM 专注于处理文本数据,但还有其他 AI 模型专注于视觉和音频数据。 这些用于计算机视觉和语音识别等应用程序。 然而,在过去几年中,人工智能模型模式之间的界限变得模糊。
所谓的多模态学习是将来自不同来源的独立数据整合到一个人工智能模型中。 开发多模态 AI 模型的希望是能够处理多个数据集,使用基于学习的方法产生更智能的见解。
OpenAI 将多模态确定为 AI 的长期目标,并且在该领域一直非常活跃。 在其最新的研究公告中,OpenAI 提出了两种模型,声称可以使这一目标更接近。
第一个 AI 模型 DALL·E 于 2021 年 1 月发布。OpenAI 指出,DALL-E 可以成功地将文本转换为适合用自然语言表达的各种概念的图像,并且它使用与 GPT 相同的方法- 3.
第二个 AI 模型 CLIP 也于 2021 年 1 月发布,可以以“零镜头”方式立即将图像分类为属于预定义类别之一。 CLIP 不必像大多数其他视觉 AI 模型那样针对特定于这些类别的数据进行微调,同时在行业基准 ImageNet 中超过它们。
2022 年 4 月,OpenAI 发布了 DALL·E 2。该公司指出,与其前身相比,DALL-E 2 生成的图像更逼真、更准确,分辨率提高了 4 倍。
2022 年 5 月,谷歌宣布了自己的类似于 DALL-E 的多模式 AI 模型,称为 Imagen。 谷歌的研究表明,在样本质量和图像文本对齐方面,人类评分者在并排比较中更喜欢 Imagen 而不是其他模型。
吹牛的权利似乎在不断变化。 至于这些多模态 AI 模型是否可以解决对资源利用和偏见的批评,虽然目前知之甚少,但根据已知的情况,答案似乎分别是“可能不会”和“有点” . 那么实际的情报部分呢? 让我们深入了解一下。
OpenAI 指出,“DALL·E 2 已经学习了图像和用于描述它们的文本之间的关系。它使用一种称为“扩散”的过程,该过程从随机点的图案开始,并在识别时逐渐改变该图案以形成图像 该图像的特定方面”。
谷歌指出,他们的“关键发现是,在纯文本语料库上预先训练的通用 LLM(例如 T5)在为图像合成编码文本方面出奇地有效:增加 Imagen 中语言模型的大小可以提高样本保真度和图像质量 – 文本对齐远远超过增加图像扩散模型的大小”。
虽然 Imagen 似乎严重依赖 LLM,但 DALL-E 2 的过程有所不同。然而,OpenAI 和谷歌的人员以及独立专家都声称,这些模型显示出一种与人类理解重叠的“理解”形式。 麻省理工学院技术评论甚至将骑马的宇航员称为 DALL-E 2 的标志性形象,这是 AI 理解世界之旅的里程碑。
然而,加里·马库斯 (Gary Marcus) 仍然不相信。 Marcus 是一位科学家、畅销书作家和企业家,他在 AI 圈子中因其对许多主题的批评而闻名,包括智能的本质和深度学习的问题。 他很快指出了 DALL-E 2 和 Imagen 的缺陷,并参与了公开对话,包括与谷歌的人进行对话。
马库斯在一篇题为“骑马宇航员”的文章中分享了他的见解。 他的结论是,期望这些模型对与句法结构相关的语义完全敏感是一厢情愿的想法,无法推理是现代机器学习方法的普遍失败点,也是寻找新想法的关键所在。
最后但同样重要的是,在 2022 年 5 月,DeepMind 宣布了通才 AI 模型 Gato。 正如 ZDNet 自己的 Tiernan Ray 指出的那样,Gato 是一种不同类型的多模式 AI 模型。 Gato 可以处理多种数据来执行多种任务,例如玩视频游戏、聊天、写作文、图片字幕和控制机械臂堆叠积木。
正如 Ray 还指出的那样,Gato 在很多事情上做得一般。 然而,这并没有阻止构建 Gato 的 DeepMind 团队的人们惊呼“游戏结束了!这是为了让这些模型更大、更安全、计算效率更高、采样速度更快、内存更智能、模式更多”。
少数人的语言、目标和市场力量
那么所有这些都把我们留在哪里呢? 撇开炒作、形而上学的信仰和热情的爆发不谈,应该冷静地审视人工智能的现状。 虽然过去几个月发布的模型确实是令人印象深刻的工程壮举,有时能够产生惊人的结果,但它们所指向的智能并不是真正的人工。
生成这些模型的令人印象深刻的工程背后是人类智能。 正是人类智能建立了越来越好的模型,艾伦图灵的基础论文《计算机器与智能》称之为“模仿游戏”,后来被称为“图灵测试”。
正如乔治敦法学院隐私与技术中心 (CPT) 的执行主任艾米丽·塔克 (Emily Tucker) 所写,图灵取代了“机器能思考吗?”这个问题。 一个人是否可以将计算机误认为另一个人的问题。
图灵并没有本着对前一个问题有帮助的启发式的精神提出后一个问题。 他并没有说他认为这两个问题是彼此的版本。 相反,他表达了“机器能思考吗?”这个问题的信念。 没有价值,并且似乎对不久的将来抱有肯定的希望,在不久的将来,人类实际上很难甚至根本不可能问自己这个问题。
在某些方面,那个未来可能正在快速接近。 像 Imagen 和 DALL-E 这样的模型在出现需要人类拥有的那种智能才能处理的提示时会崩溃。 但是,对于大多数意图和目的而言,这些可能被视为边缘情况。 世界上的 DALL-E 能够产生的东西可以与最熟练的艺术家相提并论。
那么问题是,这一切的目的是什么。 就其本身而言,花费 Imagen 之类的东西所需的时间和资源来随意生成很酷的图像似乎是错误的。
将此视为创建“真正的”人工智能的中间目标可能更合理,但前提是我们愿意认同这样一种观念,即在越来越大的规模上做同样的事情会以某种方式导致不同的结果。
有鉴于此,塔克声明的意图是尽可能具体地说明所讨论的技术是什么以及它是如何工作的,而不是使用诸如“人工智能和机器学习”之类的术语,这在某种程度上开始变得有意义了。
例如,塔克写道,与其说“人脸识别使用人工智能”,不如说“科技公司使用海量数据集来训练算法来匹配人脸图像”。 如果完整的解释会破坏更大的论点,或者超出 CPT 的专业知识范围,他们会将读者指向外部资源。
说实话,就可读性而言,这听起来不太实用。 但是,请记住,当我们说“AI”时,它确实是一种约定俗成,而不是表面上的东西。 确实是科技公司使用大量数据集来训练算法来执行——有时有用和/或令人印象深刻的——模仿人类智能。
这不可避免地会引发更多问题,例如——做什么,以及为了谁的利益。 正如斯坦福大学数字经济实验室主任、经济学家出身的埃里克·布林约尔松 (Erik Brynjolfsson) 所写,对类人人工智能的过度关注压低了大多数人的工资,“即使它扩大了拥有和控制技术的少数人的市场力量” .
在这方面,人工智能与早于它的其他技术没有什么不同。 这次可能不同的是事情发展的速度,以及对少数人力量的放大程度。