如果您使用过 ChatGPT,那么您就会知道它就像人工智能中的莎士比亚一样,可以生成与人类非常相似的文本,以至于它可能会写出下一部伟大的美国小说。 由于所谓的 InstructGPT 语言模型的进步,它在极短的时间内取得了长足的进步。
InstructGPT 是 OpenAI 开发的一种先进的人工智能语言模型,旨在遵循文本提示中给出的指令。 它代表了 GPT-3 等之前模型的重大演变,并提供了增强的理解和生成文本的功能,使其成为适用于从客户服务到内容创建等广泛应用的强大工具。
本文将深入探讨 InstructGPT 的复杂性,探讨其功能、应用及其对人工智能研究和开发的影响。 我们还将讨论此类先进人工智能技术带来的道德考虑和挑战。
InstructGPT 是 OpenAI 创造的一个术语,指的是根据人类反馈进行训练的语言模型,以利用以前的 GPT 模型的功能并将其推向新的高度。
GPT 代表“生成式预训练变压器”。 它是 OpenAI 开发的一种语言预测模型:
“生成”是因为它可以生成文本。
“预训练”是因为它在接受人工标记者的监督微调之前,先对大量训练数据进行训练。
“Transformer”是指它用来理解文本中单词上下文的神经网络架构类型。
Instruct GPT 的核心运行原理与其他 GPT 语言模型相同:它接受大量文本数据的训练,并使用这种训练根据收到的输入生成文本。
然而,InstructGPT 模型的与众不同之处在于它们能够遵循文本提示中给出的指令。 与之前的模型相比,这是一个重大进步,之前的模型主要专注于预测句子中的下一个单词。
InstructGPT 使用人类反馈强化学习 (RLHF) 进行训练,该方法涉及根据人类评估者的反馈微调模型的迭代过程。
这使得模型能够随着时间的推移而改进,学习生成更好的响应并更准确地遵循指令。 InstructGPT 的输出也能更好地理解人类意图,并且不太容易出现有毒语言。
在下一节中,我们将回顾 OpenAI 开发的人工智能语言模型的演变。
人工智能驱动的语言模型的演变
人工智能驱动的语言模型的旅程是一次激动人心的旅程,每个新模型都让我们更接近创建能够真正理解和生成类人文本的人工智能的目标。
让我们回顾一下这些年来这些模型是如何演变的:
1. GPT-1 (2018):GPT-1 是生成式预训练 Transformer 系列中的第一个,向前迈出了一大步。 经过大量互联网文本的训练,它可以生成有意义且与上下文相关的句子。 但是,在理解复杂的指令或在较长的文本中保持故事的直白方面,它仍然有点新手。
2. GPT-2 (2019):GPT-2 就像认真锻炼后的 GPT-1 一样。 它是在更大的数据集上进行训练的,并且具有更大的模型大小,这意味着它可以生成更加连贯和细致的文本。 它可以写论文、回答问题,甚至涉足语言翻译。 但是,就像它的前身一样,它仍然很难理解复杂的指令并在很长的文本中保持故事的直白。
3. GPT-3 (2020):GPT-3 是该家族的超级明星。 它拥有 1750 亿个参数,能够生成令人印象深刻的类似人类的文本。 它可以写论文、回答复杂的问题、翻译语言,甚至可以编写代码。 但即使是这位超级巨星也有其弱点。 它有时可能会使用有毒语言生成不正确的响应或潜在有害的输出,并且它并不总是适当地处理敏感话题。
4. InstructGPT (2023):最新的天才 InstructGPT 继承了 GPT-3 的功能,并将其提升了一个档次。 它通过监督学习进行训练,以捕获人类意图并遵循文本提示中的指令,使其成为适用于广泛应用的强大工具。 但就像它的老兄弟一样,它并不完美,有时会产生不正确或无意义的反应,与人类的意图或期望的行为不符。
从 GPT-1 到 InstructGPT,这一演变的每个阶段都让我们更接近创建能够真正理解和生成类人文本的通用人工智能系统的目标。
InstructGPT 模型是第一个利用 OpenAI 尖端对齐研究的模型。 这项研究的一个关键动机是调整语言模型,以提高其真实性和帮助性,同时减轻其危害和偏见。
InstructGPT 模型与 GPT-3 相比如何
与其前身 GPT-3 相比,InstructGPT 提供了多项关键改进,特别是在生成真实且公正的输出方面。
可以提示GPT-3大语言模型执行自然语言任务。 然而,这些模型有时会生成不真实、有毒或有害的输出。
部分原因是 GPT-3 被训练为使用公共 NLP 数据集预测下一个单词,而不是以符合用户意图的方式安全地执行语言任务。 换句话说,GPT 模型并不完全与其用户保持一致。
为了使模型更安全、更有用、更一致,OpenAI 使用来自人类反馈的强化学习。 人工贴标者提供所需模型行为的演示并对多个模型输出进行排名。
然后,他们使用这些数据进行监督微调和调整语言模型。 结果是模型在遵循指令方面比 GPT-3 好得多。 他们编造事实的频率也较低,产出的毒性也较小。
InstructGPT 模型已在应用程序编程接口 (API) 上进行测试一年多了,现已成为 OpenAI API 上可访问的默认语言模型。 它们代表了最先进的人工智能驱动的语言模型。