大型语言模型席卷了科技界。 它们为 AI 工具提供支持——例如 ChatGPT 和其他对话模型——可以解决问题、回答问题、做出预测等等。 但是,使用这些工具会带来很大的风险。 众所周知,他们会做出看似合理但不真实的声明,生成有毒内容,并模仿 AI 训练数据中根深蒂固的偏见。
为了帮助研究人员解决这些问题,Meta 在周五宣布发布一种名为 LLaMA(大型语言模型元 AI)的新型大型语言模型。 该公司根据专注于研究用例的非商业许可提供它,并计划根据具体情况授予访问权限。 它将提供给学术研究人员; 隶属于政府、民间社会和学术界组织的人员; 和世界各地的行业研究实验室。
另外:这些专家正在竞相保护 AI 免受黑客攻击。 时间不多了
LLaMA 的有趣之处在于它相对较少。
顾名思义,大型语言模型非常大。 它需要大量关于语言的数据(无论是口头语言、计算机代码、遗传数据还是其他“语言”)来创建一个足够复杂的人工智能模型来解决该语言的问题、找到答案或生成自己的作品。
“在大型语言模型空间中训练像 LLaMA 这样的较小基础模型是可取的,因为它需要更少的计算能力和资源来测试新方法、验证他人的工作和探索新的用例,”Meta 指出。
为了训练一个相对“小”的 LLM,Meta 使用了“标记”——单词片段,而不是整个单词。 Meta 对 LLaMA 进行了 20 种使用人数最多的语言的文本训练,重点关注那些使用拉丁字母和西里尔字母的语言。
LLaMA 实际上是模型的集合,参数范围从 70 亿到 650 亿。 LLaMA 65B 和 LLaMA 33B 使用 1.4 万亿个令牌进行训练,而最小的模型 LLaMA 7B 使用 1 万亿个令牌进行训练。 这些模型仅使用公开可用的数据集进行训练。
另外:如何使用 ChatGPT:您需要知道的一切
LLaMA 模型虽小,但功能强大。 Meta 表示,LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B),而 LLaMA-65B 可与最佳模型 Chinchilla70B 和 PaLM-540B 竞争。
LLaMA 作为一组基础模型对研究界也很有价值。 基础模型是在未标记的数据上训练的,这意味着它们可以针对广泛的用例进行定制。
Meta 将提供多种尺寸(7B、13B、33B 和 65B 参数)的 LLaMA,并且还共享了一张 LLAMA 模型卡,详细说明了它是如何构建模型的。 该公司还提供了一套评估模型偏差和毒性的基准评估,以便研究人员能够了解 LLaMA 的局限性并推进这些领域的研究。