人工智能正在人类活动和市场投资的两个关键领域扩展——健康和语言。 从上周结束的话题开始,我们与 AI 投资者和 2021 年 AI 现状报告的作者 Nathan Benaich 和 Ian Hogarth 讨论了这些领域的 AI 应用和研究。
在发布了可能是关于 2020 年 AI 状况的最全面报告之后,Air Street Capital 和 RAAIS 创始人 Nathan Benaich 以及 AI 天使投资人和 UCL IIPP 客座教授 Ian Hogarth 又回来了。
上周,我们讨论了 AI 的基础:生产中的机器学习、MLOps 和以数据为中心的 AI。 本周我们将详细阐述应用、投资和增长的具体领域。
医疗保健中的人工智能
去年,Benaich 和 Hogarth 证明生物学正在经历人工智能时刻。 他们解释说,这反映了已发表研究的巨大变化,从根本上推翻了对生物实验进行某种统计分析的老派方法。 新方法在大多数情况下用深度学习代替了统计分析,并且取得了更好的结果。
Benaich 指出,生物学领域内有很多容易实现的成果可以适合这种范式。 去年是这种将机器学习用于各种问题的解决方法超速发展的时候。 这种在生物学中使用机器学习的想法的成果之一是在制药行业。
几十年来,我们都知道并且都遭受了这样一个事实,即药物需要很长时间才能被发现、测试并最终获得批准。 也就是说,除非有一些巨大的灾难性压力要求我们采取其他措施,这就是我们在 COVID19 疫苗中看到的情况,Benaich 继续补充道。 多年来,老牌制药公司和新时代制药公司一直存在分歧:
“现有的制药公司在很大程度上受到先验假设的驱动,例如——我认为这个基因是导致这种疾病的原因,让我们去起诉它并弄清楚这是不是真的。然后有更多的软件驱动的人谁 做这个new age pharma的,他们多看大规模的实验,他们同时问很多问题,不偏不倚,让数据画出他们应该关注什么的地图。
这就是深度学习的进步所带来的。 所以新时代的制药公司在很大程度上说,好吧,旧制药公司的方法以前已经尝试过。 这有点行不通。 那是计算化学和物理学。 验证新时代制药方法是否有效的唯一方法是,他们是否能够产生实际在临床上使用的候选药物,并最终使这些药物获得批准,”Benaich 说。
两人的报告强调了两个证明这一点的“新时代制药”首次公开募股。 2020 年的 AI 状况预测,“领先的 AI 优先药物发现初创公司之一要么进行 IPO,要么以超过 10 亿美元的价格被收购。” Recursion Pharmaceuticals 于 2021 年 4 月首次公开募股,Exscientia 于 2021 年 9 月申请首次公开募股。Exscientia 是 Air Street Capital 投资组合中的公司之一,因此 Benaich 还有一个值得庆祝的理由。
两人认为这两次 IPO 是一笔相当大的交易,因为他们都拥有通过基于机器学习的方法生成的资产,这些资产实际上在诊所中。 特别是 Exscientia 是唯一一家也是第一家使用其机器学习系统生成和设计分子的公司。 Benaich 指出,它的工作方式是采用分子的各种不同特征,并将任务设置给软件,以生成符合这些特征并满足权衡要求的分子外观。
这是过去十二个月中第一家将其中三种药物用于临床试验的公司。 他们的 IPO 文件读起来很有趣,因为它们表明,公司在找到可行的化学创意之前需要执行的化学创意数量比你在传统制药公司看到的要少一个数量级,Benaich 继续补充道 .
Benaich 强调,尽管这对“像我们这样的技术人员”来说似乎很大,但在整个行业背景下仍然非常非常小。 这些庞然大物的制药公司价值数千亿美元,而 Recursion 和 Exscientia 加起来最多价值 100 亿美元。 回想起今年早些时候我们采访过的其他一些 AI 人士所分享的内容,我们询问 Benaich 是否认为这些做法也被“老制药公司”所采用。
“完全是。即使在伦敦本地,阿斯利康和葛兰素史克也在大力加强他们的机器学习团队。这是商业运作方式心态转变的例子之一。作为在计算机和编写代码的环境下长大的年轻一代 解决他们的问题,而不是在业余时间进行更多的手动实验,最终进入这些组织的更高级别,他们只是将不同的问题解决工具包带到桌面上,”Benaich 指出。
大型语言模型很重要
改变是不可避免的。 最终的问题是,您能否真正改变成本曲线并在更少的实验上花费更少的钱并获得更高的命中率。 Benaich 认为,这仍然需要时间。 Hogarth 指出,这并不是机器学习影响制药公司的唯一领域,并指出了机器学习如何用于解析研究文献的例子。
这触及了我们之前与 John Snow Labs 首席技术官 David Talby 的对话,因为医疗保健领域的自然语言处理是 John Snow Labs 的核心专长。 反过来,这不可避免地将对话引向了语言模型。
Benaich 和 Hogarth 在他们报告的研究部分指出了语言模型的进步; 然而,我们被事物的商业化方面所吸引。 我们专注于 OpenAI 的 GPT3,以及他们如何从完整发布模型到通过与 Microsoft 合作的 API 将其商业化。
这催生了各种各样的生态系统。 我们已经看到并尝试过许多利用 GPT3 构建面向消费者的产品的初创公司。 这些初创公司提供文案服务,例如营销文案、电子邮件和 LinkedIn 消息等。 他们并没有给我们留下特别深刻的印象,Benaich 和 Hogarth 也没有。
然而,对于 Benaich 来说,将 GPT3 作为 API 开放的好处是人们对语言模型在变得越来越好时可以做什么有了广泛的认识。 他认为它们会很快变得越来越好,尤其是当 OpenAI 开始构建 GPT-3 的分支时,例如 Codex。
Benaich 和 Hogarth 认为,从 Codex 来看,这是“一个非常史诗般的产品,一直在呼吁有人来构建它”,基于 GPT-3 的垂直聚焦模型可能会非常出色。 投资者也支持这一点,因为初创公司在过去 12 个月内筹集了近 3.75 亿美元,将 LLM API 和垂直软件解决方案带给无法负担与大型科技公司直接竞争的客户。
Hogarth 指出,另一种思考方式是,开发人员所围绕的东西具有一定的时尚品质。 拥有吸引注意力的应用程序,例如 Codex,或者之前 Primer 尝试使用 AI 来解决维基百科的性别失衡问题,都表明了一切皆有可能。 然后最终,以前最先进的技术成为主流,最先进技术的标准也会发生变化。
所谓的大型语言模型 (LLM) 开始以意想不到的方式掀起波澜。 例如,他们催生了一种新的编程范式,Software 3.0 或 Prompt programming。 其想法是以触发 LLM 产生用户感兴趣的结果的方式提示 LLM。
Benaich 指出,除此之外,我们还看到类似的语言模型被用于其他领域。 他提到了发表在《科学》杂志上的研究,其中重新实现了一个语言模型来学习病毒刺突蛋白,然后确定哪些版本的刺突蛋白和 COVID-19 的毒性或多或少。 这反过来又被用来预测病毒必须采取的潜在进化路径,以便产生或多或少有效的版本,这些版本可用于主动储存疫苗。
Benaich 认为,法学硕士可以内化各种基本语言形式,无论是生物学、化学还是人类语言。 Hogarth 插话说,这在某种程度上并不令人惊讶,因为语言是如此具有延展性和可扩展性,所以我们只会看到语言模型的不寻常应用不断增长。
人工智能不可知论
当然,并不是所有人都认同这个观点,也不是所有人都认为LLM的一切都是美好的。 在技术方面,许多人质疑 LLM 所采用的方法。 这是我们反复提到的,也是 AI 社区内部长期存在的争论。
AI 社区中的人们,例如 Gary Marcus,我们去年主持了一场关于 AI 未来的对话,或者 Walid Saba,他的贡献“机器学习不会解决自然语言理解”获得了梯度奖亚军 今年一直是法学硕士方法的直言不讳的批评者。
许多人会声称在某些方面类似于宗教辩论,Hogarth 是他称之为更不可知论方法的粉丝:
“我们有你所说的无神论者的观点,那就是——这些模型不会让我们走得更远。他们真的什么都不懂。有真正的信徒观点,那就是——我们所需要的只是 要做的是扩大这些规模,它们将完全有知觉。中间有一个观点,一个稍微不可知论的观点说——我们还有一些更重要的东西有待发现,但这些只是其中的一部分”。
Hogarth 认为,“不可知论者的观点”对 LLM 能够做的事情有适当的尊重,但也抓住了这样一个事实,即它们缺乏因果推理和其他能够扩展的主要模块。 说到规模,法学硕士庞大这一事实也对培训他们所需的资源以及他们的环境足迹产生了巨大影响。
有趣的是,在去年因 Timnit Gebru 被解雇而陷入人工智能伦理风暴之后,谷歌针对相关主题制作了 2021 年人工智能现状报告。 尽管更多人倾向于关注 Gebru 工作的偏见方面,但对我们来说,这项工作涉及的 LLM 环境足迹方面至少同样重要。
来自谷歌和伯克利的研究人员评估了五个流行的 LLM 的能源和二氧化碳预算,并提出了研究人员在发表他们的作品时衡量和报告这些成本的公式。 在模型训练期间驱动 CO2 排放的主要因素是神经网络的选择(特别是密集或稀疏)、数据中心的地理位置和处理器。
在评论备受瞩目的格布鲁事件时,霍加斯赞扬了格布鲁的贡献。 与此同时,他指出,如果你打算开始通过大型搜索引擎将这些 LLM 投入生产,当你开始质疑这些系统或环境问题中的偏见时,就会出现更多的紧张局势。
最终,这给公司母公司带来了挑战,使他们无法将这些研究投入生产。 对于 Hogarth 来说,对此最有趣的回应是替代治理结构的兴起。 更具体地说,他提到了 EleutherAI,这是一个由独立 AI 研究人员组成的集体,他们开源了他们的 60 亿参数 GPT-j LLM。
“当 EleutherAI 推出时,他们明确表示,他们正试图提供对大型预训练模型的访问,这将使大量研究成为可能,而这些技术被锁定在公司墙后,因为营利性实体有 明确鼓励淡化风险并阻止安全探测”,Hogarth 提到。
EleutherAI 意味着现在是一种开源的 LLM 替代方案。 有趣的是,除了 OpenAI 和 Google / DeepMind 之外,还有 Benaich 和 Hogarth 所说的 AGI 研究中的“第三极”:Anthropic。 Hogarth 是 Anthropic 的投资者,他发现的共同点是治理。 Hogarth 看好 Anthropic 的前景,主要是看好早期团队的素质:
“那些离开开放人工智能创建 Anthropic 的人试图通过创建一家公益公司来调整治理结构。他们不会将公司的控制权交给非公司或其投资者的人。我不知道如何 到目前为止,在这方面取得了很大进展,但这是一个相当根本的治理转变,我认为这允许一类新的参与者聚集在一起并致力于某些事情,”Hogarth 说。
照常。 与 Benaich 和 Hogarth 的对话以及就此撰写的文章都未能公正对待当今新兴的 AI 领域。 在我们重新审视它之前,即使浏览 2021 年人工智能状况报告也应该提供大量可供思考和探索的材料。