ChatGPT 的高级功能,例如调试代码、撰写论文或开玩笑,使其广受欢迎。 尽管它有能力,但它的帮助仅限于文本——但这种情况将会改变。
周二,OpenAI 推出了 GPT-4,这是一种大型多模式模型,可以接受文本和图像输入并输出文本。
另外:How to make ChatGPT provide sources and citations
GPT-3.5 和 GPT-4 之间的区别在随意的谈话中会很“微妙”。 然而,新模型在可靠性、创造力甚至智能方面将更加强大。
根据 OpenAI 的数据,GPT-4 在模拟律师考试中得分在前 10%,而 GPT-3.5 得分在后 10% 左右。 如下图所示,GPT-4 在一系列基准测试中的表现也优于 GPT-3.5。
对于上下文,ChatGPT 运行在从 3.5 系列模型微调的语言模型上,该模型将聊天机器人限制为文本输出。
OpenAI 的 GPT-4 公告是在微软德国首席技术官安德烈亚斯布劳恩 (Andreas Braun) 上周发表讲话后发表的,他在讲话中表示 GPT-4 将很快推出,并将允许文本到视频生成的可能性。
另外:ChatGPT 是如何工作的?
“我们将在下周推出 GPT-4;我们将拥有多模态模型,提供完全不同的可能性——例如,视频,”德国新闻媒体 Heise 说。
尽管 GPT-4 是多模式的,但文本到视频生成器的说法有点离谱。 该模型还不能完全制作视频,但它可以接受视觉输入,这是与以前模型相比的重大变化。
OpenAI 提供的一个展示此功能的示例显示,ChatGPT 扫描图像,试图根据用户的输入找出照片的有趣之处。
其他示例包括上传图表图像并要求 GPT-4 从中进行计算或上传工作表并要求其解决问题。
另外:ChatGPT 可以帮助您撰写论文的 5 种方式
OpenAI 表示将通过 ChatGPT 发布 GPT-4 的文本输入功能,并通过候补名单发布其 API。 由于 OpenAI 正在与一个合作伙伴合作以启动该功能,因此您将不得不等待更长的时间才能使用图像输入功能。
如果您对没有文本到视频生成器感到失望,请不要担心,这不是一个全新的概念。 Meta 和 Google 等科技巨头已经在开发模型。 Meta 有 Make-A-Video,谷歌有 Imagen Video,它们都使用人工智能根据用户输入制作视频。