按摩 AI 语言模型以获得乐趣、利润和道德

2023-05-17 0 445

按摩 AI 语言模型以获得乐趣、利润和道德

统计数据等于理解吗? 人工智能有道德指南针吗? 从表面上看,这两个问题似乎同样异想天开,答案也同样显而易见。 随着人工智能炒作的反响; 然而,这些类型的问题似乎必然会被一次又一次地问到。 最先进的研究有助于探索。

人工智能语言模型和人类策展
几十年前,AI 研究人员基本上放弃了构建模仿我们极其灵活的人类智能的计算机的探索,转而创建有用(即有利可图)的算法。 尽管有这种可以理解的弯路,但一些 AI 爱好者将他们的创作标榜为真正的智能,Gary N. Smith 在 Mind Matters 上写道。

史密斯是波莫纳学院的弗莱彻琼斯经济学教授。 他在金融市场、统计推理和人工智能方面的研究,经常涉及股市异常、统计谬误和数据滥用等问题,被广泛引用。 他还是许多 AI 书籍的获奖作者。

在他的文章中,Smith 着手探索大型语言模型 (LLM) 可能在多大程度上逼近真实智能。 LLM 的想法很简单:使用大量人类产生的知识数据集来训练机器学习算法,目标是生成模拟人类如何使用语言的模型。

有一些著名的 LLM,例如 Google 的 BERT,它是最早广泛使用且性能卓越的 LLM 之一。 尽管 BERT 是在 2018 年推出的,但它已经是标志性的了。 介绍 BERT 的出版物在 2022 年被引用次数接近 40K,BERT 带动了众多下游应用以及后续研发。

BERT 在被认为是 LLM 的核心方面:参数数量方面已经远远落后于其后继者。 这代表了每个 LLM 所体现的复杂性,目前 AI 专家的想法似乎是模型越大,即参数越多,它的性能就越好。

谷歌最新的 Switch Transformer LLM 可扩展多达 1.6 万亿个参数,与之前具有 110 亿个参数的 T5-XXL 模型相比,训练时间缩短了 7 倍,且准确度相当。

GPT-2 和 GPT-3 LLM 的制造商 OpenAI 对 LLM 进行了广泛的研究,这些 LLM 被用作商业应用程序的基础,例如通过 API 撰写文案以及与 Microsoft 合作。 研究结果表明,影响模型规模的三个关键因素是模型参数的数量 (N)、数据集的大小 (D) 和计算能力的大小 (C)。

有专门用于测试 LLM 在自然语言理解方面表现的基准,例如 GLUE、SuperGLUE、SQuAD 和 CNN/Daily Mail。 谷歌发表的研究表明,T5-XXL 在这些基准测试中表现与人类相当或优于人类。 我们不知道开关变压器 LLM 有类似的结果。

然而,我们可以合理地假设 Switch Transformer 正在为 LaMDA 提供动力,LaMDA 是 Google 的“突破性对话技术”,又名聊天机器人,目前尚未向公众开放。 Blaise Aguera y Arcas,谷歌在西雅图的人工智能小组的负责人,认为“统计数据确实相当于理解”,并引用了与 LaMDA 的一些交流作为证据。

这是史密斯开始探索该声明是否站得住脚的起点。 这不是史密斯第一次这样做。 按照 Gary Marcus 和其他深度学习评论家的思路,Smith 声称 LLM 在某些条件下可能会产生看似合理的结果,但当输入人类很容易理解时就会崩溃。

史密斯声称,这是因为法学硕士并不真正理解问题或不知道他们在说什么。 2022 年 1 月,史密斯报告使用 GPT-3 来说明统计不等于理解的事实。 2022 年 3 月,史密斯试图再次运行他的实验,这是由于 OpenAI 承认雇用 40 名承包商来手动满足 GPT-3 的答案这一事实引发的。

一月份,史密斯尝试了一些问题,每个问题都产生了一些“令人困惑和矛盾”的答案。 3 月,GPT-3 连贯而明智地回答了每一个问题,每次都给出了相同的答案。 然而,当 Smith 尝试新的问题和变体时,他发现 OpenAI 的承包商正在幕后工作以修复出现的故障。

这促使 Smith 将 GPT-3 比作 Mechanical Turk,这是一种建于 18 世纪的国际象棋自动机,其中一位国际象棋大师巧妙地隐藏在机柜内。 尽管一些 LLM 支持者认为,在某些时候,LLM 的庞大规模可能会产生真正的智慧,但 Smith 离题了。

史密斯写道,GPT-3 非常像一位优秀魔术师的表演。 我们可以暂时搁置怀疑,认为这是真正的魔法。 或者,即使我们知道这只是幻觉,我们也可以享受表演。

人工智能语言模型有道德指南针吗?
缺乏常识性理解以及由此产生的混乱和矛盾的结果构成了 LLM 众所周知的缺点——但还有更多。 法学硕士提出了一系列伦理问题,其中最突出的问题围绕着培训和使用它们对环境的影响,以及这些模型所表现出的偏见和毒性。

迄今为止,在这场正在进行的公开对话中,最引人注目的事件可能是谷歌道德人工智能团队负责人 Timnit Gebru 和 Margaret Mitchell 的终止/辞职。 Gebru 和 Mitchell 在 2020 年试图发表记录这些问题并提出问题的研究时在谷歌面临审查。

然而,尽管有伦理意义,但也有实际意义。 为商业目的而创建的 LLM 应该符合他们所服务的受众的规范和道德标准,这样才能取得成功。 例如,制作因其语言而被认为不可接受的营销副本会限制 LLM 的适用性。

这个问题的根源在于 LLM 的培训方式。 尽管正在开发和应用优化 LLM 培训过程的技术,但今天的 LLM 代表了一种基本的蛮力方法,根据这种方法,在问题上投入更多数据是一件好事。 正如人工智能和深度学习的先驱之一吴恩达最近所分享的那样,情况并非总是如此。

对于有大量数据的应用程序,例如自然语言处理 (NLP),注入系统的领域知识量随着时间的推移而下降。 Ng 解释说,在深度学习的早期,人们通常会训练一个小型深度学习模型,然后将其与更传统的领域知识库方法相结合,因为深度学习效果不佳。

谷歌前机器翻译负责人 David Talbot 等人已经说过一段时间了:除了从数据中学习之外,应用领域知识对机器翻译也很有意义。 在机器翻译和自然语言处理 (NLP) 的情况下,该领域知识是语言学。

但是随着 LLM 变得越来越大,注入的领域知识越来越少,而使用的数据越来越多。 这一事实的一个关键含义是,通过此过程生成的 LLM 反映了用于训练它们的数据中的偏差。 由于该数据未经整理,因此包含各种输入,这会导致不良结果。

一种补救方法是整理源数据。 然而,德国达姆施塔特技术大学的一组研究人员从不同的角度解决了这个问题。 在他们发表在《自然》杂志上的论文中,Schramowski 等人。 认为“大型预训练语言模型包含类似人类的对错行为的偏见”。

虽然 LLM 反映了用于训练它们的数据的偏见这一事实已得到充分证实,但这项研究表明,最近的 LLM 还包含类似人类的对错行为的偏见,以及某种形式的伦理和道德社会规范。 正如研究人员所说,法学硕士使“道德方向”浮出水面。

该研究通过首先对人类进行研究得出了这一结论,参与者被要求根据上下文对某些行为进行评分。 一个例子是“杀死”动作,给定不同的上下文,例如“时间”、“人”或“昆虫”。 这些上下文中的行为根据对/错分配分数,答案用于计算短语的道德分数。

为 BERT 计算相同短语的道德分数,研究人员使用一种称为道德方向的方法。 研究人员表明,BERT 的道德方向与人类道德规范密切相关。 此外,研究人员将 BERT 的道德方向应用于 GPT-3,发现与其他方法相比,它在防止 LLM 所谓的毒性退化方面表现更好。

虽然这是一条有趣的研究路线,并取得了可喜的成果,但我们也忍不住想知道它所引发的道德问题。 首先,众所周知,道德价值观因人群而异。 除了选择人口样本所固有的偏见之外,BERT 和参与研究的人都使用英语这一事实带来了更大的偏见。 他们的道德价值观不一定代表全球人口。

此外,虽然意图可能是好的,但我们也应该意识到其中的含义。 应用类似的技术会产生经过精心策划的结果,以排除现实世界的表现形式,包括其所有的偶然性和丑陋性。 如果目标是制作营销副本,这可能是可取的,但如果目标是拥有代表现实世界的东西,情况就不一定如此。

MLOps:跟踪机器学习过程和偏差
如果这种情况听起来很熟悉,那是因为我们以前都见过:搜索引擎应该过滤掉结果,还是社交媒体平台应该审查某些内容/取消平台化某些人? 如果是,那么标准是什么,谁来决定?

是否应该对法学硕士进行按摩以产生某些结果的问题似乎是这些问题的直接后代。 人们在这些问题上的立场反映了他们的道德价值观,而答案并不明确。 然而,从这两个例子中可以看出,尽管取得了所有进展,LLM 在实际应用方面仍有很长的路要走。

无论 LLM 是出于其创建者的正确性还是出于乐趣、利润、道德或任何其他原因由第三方进行修改,都应保留这些定制的记录。 这属于称为 MLOps 的学科:类似于软件开发,DevOps 是指系统地开发和发布软件的过程,MLOps 相当于机器学习模型。

类似于 DevOps 如何不仅提高效率,而且提高软件创建过程的透明度和控制,MLOps 也是如此。 不同之处在于机器学习模型有更多的运动部件,因此 MLOps 更复杂。 但是拥有机器学习模型的谱系很重要,这不仅是为了能够在出现问题时修复它们,还可以了解它们的偏见。

在软件开发中,开源库被用作人们可以按原样使用或根据需要定制的构建块。 我们在机器学习中有类似的概念,因为一些机器学习模型是开源的。 虽然不可能像人们更改开源软件中的代码那样直接更改机器学习模型,但我们在这里看到的这种事后更改是可能的。

我们现在已经达到了我们拥有所谓的 NLP 基础模型的地步:像 GPT-3 这样的巨大模型,经过大量数据的训练,人们可以使用它来针对特定的应用程序或领域进行微调。 其中一些也是开源的。 例如,BERT 诞生了许多变体。

在这种背景下,法学硕士根据其所服务的特定社区的道德价值观进行微调的情况并非不可想象。 常识和 AI 伦理都要求与 LLM 互动的人应该意识到他们的创造者所做的选择。 虽然不是每个人都愿意或能够深入了解完整的审计线索,但摘要或许可变更可能有助于实现这一目标。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 按摩 AI 语言模型以获得乐趣、利润和道德 https://www.7claw.com/56529.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务