本着过去几年的精神,我们回顾了我们确定为 2020 年代数据库、数据管理和人工智能领域关键技术驱动力的发展。 我们正在回顾 2021 年,试图找出将塑造 2022 年的模式。
今天,我们从回顾的第一部分开始,涵盖人工智能和知识图谱。
人工智能的方方面面:硬件、边缘、MLOps、语言模型、未来架构和伦理
原则上,我们尝试从整体上接近 AI。 考虑正面和负面,从闪亮到平凡,从硬件到软件。 在过去几年中,硬件一直是更广泛的 AI 故事中的一个持续故事,我们认为这是开始我们的旅程的好地方。
在过去的几年里,我们一直在关注不断增长的“AI 芯片”供应商名单,即那些着手从头开始开发新硬件架构的公司,专门针对 AI 工作负载。 他们所有人都希望从看似不断增长的蛋糕中分得一杯羹:随着 AI 的不断扩展,工作负载也在不断增长,并且尽可能快速、尽可能经济地为它们提供服务是一个显而易见的目标。
Nvidia 继续主导着这个市场。 早在 AI 工作负载开始蓬勃发展之前,Nvidia 就已经进入市场,并且具有敏锐的洞察力和反应能力,可以通过构建硬件和软件生态系统来利用这一点。 其 2020 年使 Arm 成为该生态系统一部分的举措正在接受监管审查。 不过,英伟达在2021年并没有闲着。
在 2021 年 11 月 Nvidia 的 GTC 活动上发布的一系列公告中,在硬件层面带来新事物的公告与我们认为 AI 在 2021 年的总体重点特征有关:推理和边缘。 Nvidia 对 Triton 推理服务器进行了多项改进。 它还推出了 Nvidia A2 Tensor Core GPU,这是一种用于边缘 AI 推理的低功耗、小尺寸加速器,Nvidia 声称其推理性能比 CPU 高出 20 倍。
那新贵呢? 在获得高达 6.76 亿美元的 D 轮融资后,SambaNova 声称现在是“世界上资金最充足的 AI 初创公司”,估值超过 50 亿美元。 SambaNova 的理念是提供“人工智能即服务”,现在包括 GPT 语言模型,看起来 2021 年对他们来说基本上是进入市场的一年。
就 Xilinx 而言,它声称与 Nvidia GPU 相比,神经网络实现了显着的加速。 Cerebras 声称“绝对主导”高端计算并获得了一些巨额资金。 Graphcore 在 MLPerf 结果中与 Nvidia(和谷歌)竞争。 Tenstorrent 聘请了传奇芯片设计师 Keller。 Blaize 筹集了 7100 万美元,用于将边缘 AI 引入工业应用。 Flex Logix 获得了 5500 万美元的风险投资支持,使其总收入达到 8200 万美元。 最后但同样重要的是,我们在 NeuReality 的比赛中有一匹新马,在 ONNX 和 TVM 中混合和匹配部署的方法,以及使用 AI 设计 AI 芯片的承诺。 如果这不是蓬勃发展的创新,我们不知道什么才是。
根据 Linux 基金会的 State of the Edge 报告,到 2028 年,数字医疗保健、制造和零售企业特别有可能扩大对边缘计算的使用。难怪针对边缘的 AI 硬件、框架和应用程序也在激增。
TinyML 是一门生产机器学习模型的艺术和科学,其生产成本低到足以在边缘工作,它正在快速增长并建立一个生态系统。 Edge Impulse 是一家希望将边缘机器学习带给每个人的初创公司,它刚刚宣布获得 3400 万美元的 B 轮融资。 边缘应用即将到来,人工智能及其硬件将成为其中的重要组成部分。
我们在 2020 年称呼的东西,在 2021 年很突出,并将在未来几年与我们同在,这就是所谓的 MLOps——将机器学习引入生产。 在 2021 年,人们试图为与 MLOps 相关的各种现象命名,对 MLOps 领域进行切片和切块,应用数据版本控制和持续机器学习,以及相当于数据的测试驱动开发等。 重点正在从闪亮的新模型转移到可能更平凡但实用的方面,例如数据质量和数据管道管理,以及 MLOps 将继续增长。
另一个可能在规模和数量上继续增长的是大型语言模型 (LLM)。 有些人认为 LLM 可以内化语言的基本形式,无论是生物学、化学还是人类语言,我们即将看到 LLM 的不寻常应用在增长。 其他的,没那么多。 无论哪种方式,法学硕士都在激增。
除了“通常的嫌疑人”——OpenAI 及其 GPT3、DeepMind 及其最新的 RETRO LLM、谷歌及其不断扩大的 LLM 阵列——Nvidia 现在还与 Microsoft 在 Megatron LLM 方面进行了合作。 但这还不是全部。
最近,由独立人工智能研究人员组成的集体 EleutherAI 开源了他们的 60 亿参数 GPT-j 模型。 此外,如果您对英语以外的语言感兴趣,我们现在有一个由 Aleph Alpha 精通英语、德语、法语、西班牙语和意大利语的大型欧洲语言模型。 五道是中国的LLM,也是最大的LLM,有1.75万亿个参数,HyperCLOVA是韩国的LLM,有2040亿个参数。 此外,总是有其他的、稍旧/较小的开源 LLM,例如 GPT2 或 BERT 及其许多变体。
除了法学硕士,DeepMind 和谷歌都暗示了人工智能模型的革命性架构,分别是 Perceiver 和 Pathways。 路径因相当模糊而受到批评。 但是,我们大胆推测它可能基于 Perceiver。 但由于我们处于未来的科技领域,更不用说 DeepMind 的神经算法推理,这是一个有望将经典计算机科学算法与深度学习相结合的研究方向。
如果没有对 AI 道德的荣誉提及,任何 AI 之旅都不会完整。 AI 伦理问题在 2021 年仍然是首要考虑的问题,我们看到从 FTC 专员到行业从业者,每个人都试图以自己的方式解决 AI 伦理问题。 我们不要忘记人工智能在医疗保健领域的应用正在蓬勃发展,无论有没有人工智能,在这个领域道德都应该是重中之重。
知识图谱、图数据库和图 AI
长期以来,我们一直是各种形状和大小的图的狂热支持者——知识图、图数据库、图分析、数据科学和人工智能。 因此,我们从这方面进行报道是百感交集。 一方面,我们没有看到太多的创新,也许除了一个领域——图神经网络。 DeepMind 的神经算法推理也利用了 GNN。
另一方面,出于两个原因,这不一定是坏事。 首先,主流技术得到了广泛采用。 Gartner 预测,到 2025 年,图形技术将用于 80% 的数据和分析创新,高于 2021 年的 10%,从而促进快速决策制定。 报道 BMW、宜家、西门子能源、富国银行和瑞银等公司的用例已不再是新闻,这是一件好事。 是的,构建和维护知识图谱存在一些挑战,但这些挑战在很大程度上是众所周知的。
正如我们所指出的,知识图谱实际上是一项已有 20 年历史的技术,其成为众人瞩目的时代似乎已经到来。 构建知识图谱的方法是众所周知的,也存在其中的挑战。 知识图谱中一些最需要的技能和开发领域围绕着使用自然语言处理和可视化界面来构建和维护知识图谱,以及从单用户场景扩展到多用户场景的方法,这并非巧合 .
为了将这次对话与更广泛的 AI 所属图景联系起来,常见的挑战似乎是围绕运营和在团队中建立正确的专业知识,因为这些技能的需求非常高。 另一个重要的接触点是混合人工智能方向,即在机器学习中注入知识。 英特尔的 Gadi Singer、LinkedIn 的 Mike Dillinger 和混合智能中心的 Frank van Harmelen 等领导者都指出了知识图形式的知识组织对于人工智能未来的重要性。
人工智能和知识图谱之间还有另一个重要的接触点:数据网格和数据结构。 你会被原谅混淆了这 2 个和这些天到处飞来飞去的过多的数据相关术语。 简单地说,数据结构旨在作为组织中分散数据管理的数据网格概念的技术基础。 这实际上非常适合知识图谱技术,该领域的一些供应商已经确定了这一点并相应地定位了自己。 甚至 Informatica 似乎也注意到了。
那么构建知识图谱的基础,即图数据库呢? 2021 年图形数据库的特征似乎是“上市”。 对于图形数据库来说,这是丰收的一年。 图数据库——Neo4j——第一次进入数据库引擎前 20 名。 Neo4j 还宣布全面推出其 Aura 托管云服务,并筹集了 3.25 亿美元的 F 轮融资,这是数据库历史上最大的融资,使其估值超过 20 亿美元。
图数据库空间经历了一系列融资轮次和即将到来的 IPO。 TigerGraph 获得了 1.05 亿美元的 C 轮融资,Katana Graph 获得了 2850 万美元的 A 轮融资,Memgraph 获得了 934 万美元的种子资金,TerminusDB 获得了 360 万欧元。 与此同时,Agens Graph 的制造商 Bitnine 开始着手进行首次公开募股——这是市场上的第一次。 Bitnine现已在韩国电子股票市场KOSDAQ上市
在技术方面,GraphQL 的采用率仍在增长,无论是作为更广泛的生态系统的一部分还是作为数据架构的核心组件。 在模型(RDF 和 LPG)方面桥接两个图数据库世界的工作仍在进行中,但在 2021 年已经看到了一些有趣的发展。
我们不指望世界与图形和图形数据库的蜜月会永远持续下去,在炒作之后,幻灭不可避免地会在某个时候随之而来。 但我们相信,这项技术是基础性的,尽管会出现问题,但它会找到自己的位置。