Databricks 周一宣布,MosaicML 将通过 13 亿美元的交易加入 Databricks 家族,并提供其“工厂”来构建专有的生成人工智能模型。 公司可以使用此类人工智能来缓解对知识产权侵犯的担忧。
Databricks 的数据管理技术与 MosaicML 构建人工智能模型的能力相结合,将使公司能够创建自己的大型语言平台,而不是依赖 OpenAI 的 ChatGPT 等公共生成式人工智能。
MosaicML 创建了两个生成式 AI 基础模型:MPT-7(具有 67 亿个参数)和 MPT-13(具有 299 亿个参数)。 MPT 基础模型将加入 Databricks 自己的开源法学硕士:Dolly 1 和 2。
为什么 Databricks 选择 MosaicML
Databricks 首席执行官兼联合创始人 Ali Ghodsi 在周二的 Databricks + AI 峰会上表示,MosaicML 是 Databricks 收购的正确选择,因为它拥有“市场上最容易使用的工厂”。
他还引用了类似的、竞争性的公司文化作为 MosaicML 非常适合的原因。
此次收购仍在获得监管部门的批准; 该交易预计将于七月底完成。 Ghodsi 表示,在该过程完成后,Databricks 将获得有关 MosaicML 的人工智能训练和推理产品如何与 Databricks 软件集成的更多信息。
什么是数据块?
Databricks主要为企业组织提供数据存储和数据管理软件,并处理数据平台迁移和数据分析。 Databricks 与 AWS 和其他大型企业软件和软件即服务提供商建立了合作伙伴关系。
为什么 Databricks 计划打造一个充满私人人工智能的未来
Ghodsi 指出,他的公司将利用 MosaicML 的资源提供“工厂”,客户可以根据自己的规格构建和培训法学硕士。 这意味着公司不必花钱购买应用程序编程接口连接或与使用该模型的任何其他人共享专有数据; 后者已成为使用 ChatGPT 或 Google Bard 的公司所关注的问题。 Databricks 客户将能够在 Dolly 和 MPT 系列之间进行选择,或者在现有模型之一上构建自定义生成人工智能。
Ghodsi 表示,现在每个人都在考虑使用闭源还是开源人工智能基础模型。 Databricks 坚定地站在开源一边。
“我们认为,如果有关于理解这些模型的开放研究,这对每个人都更好,”戈德西在峰会的问答环节中说道。 “重要的是我们了解他们的优势、劣势、偏见等等。
“但我们也认为,最重要的是,公司希望拥有自己的模型……他们不想只使用某人提供的一种模型,因为它是知识产权。 而且很有竞争力。”
Ghodsi 表示,客户希望控制自己的 IP 并锁定其数据。
数据管理和分析软件公司 Alation 的首席技术官 Junaid Saiyed 也发现客户在询问生成式人工智能。 然而,他在给 TechRepublic 的电子邮件中表示,对于组织来说,重要的是要知道他们为训练模型提供的数据是好的。
Saiyed 表示:“数据源的激增和数据量的增加使得人们比以往任何时候都更加难以搜索和发现训练人工智能模型所需的可信、受监管的数据。” “为了真正有效,生成模型必须针对特定领域的数据目录进行微调,并且人类应该审查其输出。”
如何在公共人工智能和专有人工智能之间做出决定
对话式人工智能和自动化公司 Uniphore 的联合创始人兼首席执行官 Umesh Sachdev 建议企业领导者在决定是在 MosaicML 等基础模型上构建自己的人工智能,还是使用 GPT 系列等公共人工智能时,问自己以下问题:
模型提供商将花费我多少费用,以及 GPU 会导致基础设施成本增加多少?
由于监管谈判仍处于早期阶段,我们应该向前倾斜多少? 如果我们的企业使用 ChatGPT,我们是否可能成为内容提供商的合法目标,他们在法律上挑战数据的所有权或培训?
如果我们不想使用经过公共或开放数据训练的数据,而是使用来自我们自己行业的更专有的数据集,我们可能会问我们的所有数据是否都已准备好在一处。
如果我们的试点成功,它会扩大规模吗? 将我们所有的遗留系统连接到这个人工智能层怎么样?
目标是让人工智能训练、调整和构建变得更容易
“对于大多数组织来说,他们都有想要完成的专门任务……为此,我们希望他们能够训练和调整特定的模型,”Ghodsi 在 Databricks + AI 峰会上表示。
Ghodsi 表示,企业客户需要一定的技术门槛来构建生成式人工智能。 他预计 MosaicML 可以满足以更简单的方式构建和训练人工智能技术的需求。
戈德西在峰会上表示:“希望最终我们能让你只需点击几下鼠标就可以做到这一点。”
萨奇德夫在给 TechRepublic 的电子邮件中表示:“这项技术(生成式人工智能)还处于起步阶段,关于数据主权、可扩展性和成本,还有很多东西需要揭示。” “公司正在迅速做出公告和决策,但与大多数大型科技浪潮一样,机遇将在第二波或第三波发展中显现。”
Saiyed 表示:“这种人工智能转型向商业和技术领导者揭示了他们数据环境的真实状况。” “拥有数据智能平台和联合数据治理的组织将能够先于那些现在才投资于数据管理策略现代化的组织,利用 GenAI 的力量。”
MosaicML 的竞争对手有哪些?
人工智能培训领域竞争激烈; MosaicML 与 NVIDIA、OpenAI、Anthropic 和 Google 竞争。 周一,NVIDIA 宣布与 Snowflake 建立合作伙伴关系,将 NVIDIA NeMo LLM 开发平台和 NVIDIA GPU 加速计算添加到 Snowflake 数据云中。