公共或专有的生成式人工智能解决方案适合您的业务吗？专访专家亚伦·卡尔布-七爪网

当谈到生成人工智能时，您的组织应该选择公共人工智能还是专有人工智能？首先，您需要考虑这些选项之间的主要区别。

公共人工智能可以拥有广泛的知识库并完成很多任务。然而，公共人工智能可能会将这些数据反馈到模型的训练数据中，这可能会导致安全漏洞的出现。另一种方法是使用专有数据进行人工智能培训和内部托管，这种方法可以更安全，但需要更多的基础设施。

由于安全风险，包括三星在内的一些公司已禁止将公共生成人工智能用于企业用途。为了回应这些担忧，ChatGPT 背后的公司 OpenAI 于 2023 年 4 月为用户添加了一个限制其数据使用的选项。

数据分析公司 Alation 的联合创始人兼首席战略官 Aaron Kalb 与我们讨论了生成式人工智能如何在数据分析中使用，以及其他组织可以了解这个快速发展的领域的现状。作为 Siri 的工程师，他深入了解了组织在选择新兴技术时应考虑的因素，包括公共或专有人工智能数据集之间的选择。

以下是我对卡尔布的采访记录。为了篇幅和清晰度，对其进行了编辑。

训练自己的人工智能还是使用公共服务？
梅根·克劳斯（Megan Crouse）：您认为拥有自己的私有数据池并输入人工智能的公司将成为未来的发展方向，还是公共人工智能和专有人工智能的混合体？

Aaron Kalb：内部大型语言模型很有趣。在整个互联网上进行培训既有好处也有风险——并不是每个人都能负担得起，甚至都不想这样做。通过微调或快速工程，您可以在大型预训练模型上取得多大进展，这让我感到震惊。

对于较小的玩家来说，将会有很多现有的、可重复使用的东西[AI]的用途。我认为有能力制造自己的 [AI] 的大型企业将会受到诱惑。例如，如果你看一下 AWS 和谷歌云平台，其中一些东西感觉像是核心基础设施——我指的不是他们在人工智能方面所做的事情，而是他们在托管和服务器场方面所做的事情。人们很容易想到“我们是一家大公司，我们应该建立自己的服务器农场。”嗯，我们的核心业务是农业或制造业。也许我们应该让亚马逊和谷歌的 A 团队做到这一点，然后我们向他们支付每 TB 存储或计算几美分的费用。

我的猜测是，随着时间的推移，只有最大的科技公司才会真正发现维护自己的这些 [AI] 版本是有益的；大多数人最终都会使用第三方服务。这些服务将变得更安全、更准确，并且根据行业进行更精细的调整，并且价格更低。

如何确定人工智能是否适合您的企业
Megan Crouse：您认为企业决策者在决定是否实施生成式人工智能之前还应该问自己哪些问题？在什么情况下最好不要使用它？

Aaron Kalb：我有设计背景，目标是设计钻石。你先构思，然后选择。我从设计中学到的另一个关键点是：你总是从用户和用户的问题开始，而不是你的产品。我们遇到的最大问题是什么？

如果销售开发团队说“我们发现，如果我们的外展电子邮件的主题和正文确实根据该人的 LinkedIn 以及他们的公司或网站量身定制，我们会获得更好的响应和打开率”，并且“我们 “每天要花几个小时手动完成所有这些工作，并获得良好的打开率，但一天发送的电子邮件并不多，”事实证明，生成式人工智能在这方面非常擅长。您可以制作一个小部件，用于遍历要发送电子邮件的人员列表，并根据收件人的 LinkedIn 页面和公司网站起草一个小部件。这个人只是编辑它而不是在半小时内写出来。我认为你必须从你的问题所在开始。

Aaron Kalb：尽管它不再令人兴奋，但很多人工智能都是预测模型。这已经是一代人的事了，但这可能比给人们一个可以在机器人中输入的东西更有利可图。人们不喜欢打字。您可能最好拥有一个出色的用户界面，该界面可以根据买家点击或其他内容进行预测，即使这是一种不同的方法。

[当谈到生成人工智能时]需要考虑的最重要的事情是安全性、性能[和]成本。缺点是生成式人工智能就像用推土机移动背包一样。而且你引入了随机性，也许是不必要的。很多时候你宁愿拥有一些确定性的东西。

确定人工智能使用的数据的所有权
Megan Crouse：就 IT 责任而言，如果你正在制作自己的数据集，谁拥有人工智能可以访问的数据的所有权？它如何融入到流程中？

Aaron Kalb：我关注 AWS，我相信随着时间的推移，隐私问题和流程都会变得越来越好。当然，现在这可能是一件困难的事情。随着时间的推移，即使您在联邦政府或真正受监管的行业中，也有可能获得一个现成的产品，并获得您需要信任的所有批准和认证。这不会在一夜之间发生，但我认为这将会发生。

然而，LLM 是一个非常繁重的算法。重点是它会从一切中学习，但不知道任何东西来自哪里。任何时候你担心偏见，[人工智能可能不适合]。而且还没有一个轻量级版本。正是让它令人印象深刻的东西使它变得昂贵。这些开支不仅归结为金钱：还归结为权力。周围没有足够的电子漂浮。

专有人工智能让您查看“黑匣子”
Megan Crouse：Alation 为提供数据治理可见性而感到自豪。您是否在内部讨论过如何以及是否绕过人工智能“黑匣子”问题，即无法理解人工智能为何做出决策？

Aaron Kalb：我认为，在你真正想知道人工智能正在训练的所有“知识”来自哪里的地方，你可能想要构建自己的模型以及它所训练的数据范围。唯一的问题是“LLM”的第一个“L”。如果模型不够大，您就无法获得令人印象深刻的性能。较小的训练数据需要权衡：准确性更高，奇怪性更少，但流畅性也较差，技能也不太令人印象深刻。

在实用性和隐私性之间寻找平衡
Megan Crouse：您从 Siri 工作中学到了什么，并将其应用到您处理人工智能的方式中？

Aaron Kalb：Siri 是第一个[类似聊天机器人的人工智能]。它面临着来自谷歌等公司的激烈竞争，谷歌拥有谷歌语音等项目和用户生成的巨大对话数据语料库。 Siri 没有这些。它全部基于报纸和类似内容的文本语料库，并且有很多老式的、基于模板的推理人工智能东西。

长期以来，即使 Siri 更新了所使用的算法，性能也无法提升太多。其中一个[因素]是隐私政策。您与 Siri 的每一次对话都是独立的；它无法随着时间的推移而学习。这有助于用户相信它不会以谷歌使用的数百种方式被使用，并且可能会滥用这些信息，但苹果无法从中吸取教训。

同样，苹果不断添加新功能。 Siri 的历程表明，你的世界越大，你的力量就越强大。但这也是一个风险。您获取的数据越多，就会带来授权，但也会带来隐私问题。这种[生成式人工智能]是一项极具前瞻性的技术，但你总是在移动这些滑块，从而权衡人们关心的不同事物。