人工智能的世界,尤其是广受欢迎的“生成人工智能”——自动创建文字和图像——由于公司决定不公布细节的寒蝉效应而面临关闭视野的风险 他们的研究。
但转向保密可能促使人工智能世界的一些参与者介入并填补披露的空白。
另外:最值得尝试的 AI 聊天机器人
周二,AI 先驱 Cerebras Systems、专用 AI 计算机和世界上最大的计算机芯片的制造商,以开源形式发布了几个版本的生成 AI 程序,可以不受限制地使用。
这些程序由 Cerebras“训练”,这意味着使用该公司强大的超级计算机使其达到最佳性能,从而减少了外部研究人员必须做的一些工作。
另外:对于 GPT-4,OpenAI 选择保密而不是披露
Cerebras 联合创始人兼首席执行官安德鲁费尔德曼在接受 ZDNET 采访时表示:“公司正在做出与一两年前不同的决定,我们不同意这些决定,”暗指 ChatGPT 的创建者 OpenAI 的决定, 在本月披露其最新的生成式 AI 程序 GPT-4 时未公布技术细节,此举在 AI 研究界广受批评。
“我们相信一个开放、充满活力的社区——不仅仅是研究人员,也不仅仅是三、四、五或八名法学硕士,而是一个充满活力的社区,初创公司、中型公司和企业正在其中训练大型语言模型—— – 对我们有好处,对其他人也有好处,”费尔德曼说。
术语大型语言模型是指基于机器学习原理的 AI 程序,其中神经网络捕获样本数据中单词的统计分布。 该过程允许大型语言模型预测序列中的下一个单词。 这种能力是 ChatGPT 等流行的生成人工智能程序的基础。
同类机器学习方法适用于其他领域的生成人工智能,例如 OpenAI 的 Dall-E,它根据建议的短语生成图像。
另外:如何使用新的 Bing(以及它与 ChatGPT 的不同之处)
Cerebras 发布了七种与 OpenAI 的 GPT 程序风格相同的大型语言模型,该程序在 2018 年开启了生成式 AI 热潮。代码可在 AI 初创公司 Hugging Face 的网站和 GitHub 上找到。
这些程序的大小各不相同,从 1.11 亿个参数或神经权重到 130 亿不等。 一般来说,更多的参数使 AI 程序更强大,因此 Cerebras 代码提供了一系列的性能。
该公司不仅发布了基于开源 Apache 2.0 许可的 Python 和 TensorFlow 格式的程序源代码,还发布了使程序达到功能开发状态的培训方案的详细信息。
该披露允许研究人员检查和复制 Cerebras 的工作。
另外:值得尝试的最佳 AI 艺术生成器
Feldman 说,Cerebras 的发布是 GPT 式程序首次公开“使用最先进的训练效率技术”。
其他已发布的 AI 训练工作要么隐藏了技术数据,例如 OpenAI 的 GPT-4,要么程序在开发过程中没有优化,这意味着提供给程序的数据没有根据程序的大小进行调整,如所解释的 在 Cerebras 技术博客文章中。
众所周知,这种大型语言模型是计算密集型的。 周二发布的 Cerebras 工作是在其 16 台 CS-2 计算机集群上开发的,这些计算机的大小相当于宿舍冰箱,专门针对 AI 类程序进行了调整。 该公司先前披露的集群被称为 Andromeda 超级计算机,它可以大大减少在数千个 Nvidia 的 GPU 芯片上训练 LLM 的工作。
此外:AI 先驱表示,ChatGPT 的成功可能会促使 AI 向保密性转变
作为周二发布的一部分,Cerebras 提供了它所说的第一个开源缩放法则,这是一个基准规则,用于说明此类程序的准确性如何随着基于开源数据的程序规模的增加而增加。 使用的数据集是开源的 The Pile,这是一个 825 GB 的文本集合,主要是专业和学术文本,由非营利实验室 Eleuther 在 2020 年推出。
OpenAI 和谷歌的 DeepMind 之前的缩放法则使用了非开源的训练数据。
Cerebras 过去曾证明其系统的效率优势。 费尔德曼说,有效训练要求苛刻的自然语言程序的能力是开放出版问题的核心。
另:如何使用ChatGPT写代码
“如果你能提高效率,你就可以负担得起将东西放在开源社区中,”费尔德曼说。 “效率使我们能够快速、轻松地做到这一点,并为社区做出我们的贡献。”
他说,OpenAI 和其他公司开始向世界其他地方关闭他们的工作的一个主要原因是,面对人工智能训练成本不断上升,他们必须保护利润来源。
另外:GPT-4:提供非法建议和显示“危险的紧急行为”的新能力
“它太贵了,他们认为这是一项战略资产,他们决定不让社区知道它,因为这对他们来说具有战略意义,”他说。 “我认为这是一个非常合理的策略。
费尔德曼补充说:“如果一家公司希望投入大量时间、精力和金钱,而不是与世界其他地方分享成果,那么这是一个合理的策略。”
然而,“我们认为这会导致一个不那么有趣的生态系统,并且从长远来看,它会限制”研究的上升趋势,他说。
费尔德曼观察到,公司可以通过囤积资源来“储存”资源,例如数据集或模型专业知识。
此外:AI 挑战者 Cerebras 组装模块化超级计算机“Andromeda”以加速大型语言模型
“问题是,如何在景观中战略性地使用这些资源,”他说。 “我们相信,我们可以通过提出开放的模型、使用每个人都能看到的数据来提供帮助。”
当被问及开源版本的产品可能是什么时,费尔德曼评论道,“数百家不同的机构可能会使用这些 GPT 模型,否则这些模型可能无法解决,并解决可能被搁置的问题。”