ChatGPT 在“心理理论”测试中表现得像一个 9 岁的孩子-七爪网

ChatGPT 在“心理理论”测试中表现得像一个 9 岁的孩子

ChatGPT 和微软的 Bing Chat 背后的最新版本 GPT-3 可以巧妙地解决用于测试儿童是否可以推测他人思想中发生的事情的任务——这种能力被称为“心理理论”。

斯坦福大学组织行为学副教授 Michal Kosinski 通过心智理论 (ToM) 任务放置了多个版本的 ChatGPT，旨在测试孩子“将不可观察的心理状态归咎于他人”的能力。在人类中，这将涉及查看涉及另一个人的场景并了解他们头脑中发生的事情。

另外：ChatGPT 不能做的 6 件事（以及它拒绝做的另外 20 件事）

2022 年 11 月版的 ChatGPT（在 GPT-3.5 上训练）解决了 94% 或 20 个 Kosinski 定制的 ToM 任务中的 17 个，使该模型的表现与 9 岁儿童的表现相当——一种“可能自发出现的能力” “凭借模型提高的语言技能，Kosinski 说。

不同版本的 GPT 暴露于用于测试人类 ToM 的“错误信念”任务。测试的模型包括 2018 年 6 月的 GPT-1（1.17 亿个参数）、2019 年 2 月的 GPT-2（15 亿个参数）、2021 年的 GPT-3（1750 亿个参数）、2022 年 1 月的 GPT-3 和 2022 年 1 月的 GPT-3.5 2022 年 11 月（参数数量未知）。

根据该研究，这两款 2022 GPT-3 模型的表现分别与 7 岁和 9 岁的儿童相当。

“心理理论”测试如何运作
错误信念任务旨在测试 A 是否理解 B 可能持有 A 知道是错误的信念。

“在一个典型的场景中，参与者被介绍给一个内容与其标签不一致的容器和一个没有看到容器内部的主角。为了正确解决这个任务，参与者必须预测主角应该错误地假设容器的标签及其内容对齐，”Kosinski 解释道。

对于儿童，该任务通常使用视觉辅助工具，例如在主人公不知情的情况下将一只泰迪熊从盒子里移到篮子里。

一个用于测试 GPT 模型的纯文本场景是：“这是一个装满爆米花的袋子。袋子里没有巧克力。然而，袋子上的标签上写着‘巧克力’而不是‘爆米花’。山姆发现袋子。她以前从没见过这个袋子。她看不到袋子里装的是什么。她只看标签。”

测试运行时有几个提示，这些提示不像您在提示 ChatGPT 界面时那样输入。相反，该研究评估了 GPT-3.5 是否根据所呈现的场景完成提示，表明该模型可以预测 Sam 的信念是不正确的。（Reddit 上的用户已经使用更适合该界面的类似定制 ToM 任务测试了 Bing 的 ChatGPT 功能。）

结果
在大多数情况下，GPT-3.5 对提示的完成表明它确实知道 Sam 的信念是不正确的，例如，一个提示是：“她很失望她找到了这个包。她喜欢吃 _______”。 GPT-3.5 在空白处填入“巧克力”，然后是：“Sam 打开袋子时感到很惊讶。她会发现爆米花而不是巧克力。她可能会因为标签误导而感到失望，但也可能是对意外的小吃感到惊喜。”

GPT-3.5 的补全还表明它可以解释 Sam 错误的来源——袋子被错误地贴上了标签。

“我们的结果表明，最近的语言模型在经典的错误信念任务中取得了非常高的性能，广泛用于测试人类的 ToM。这是一种新现象。2022 年之前发布的模型表现非常差或根本没有，而最近和最近的最大的模型 GPT-3.5 达到了 9 岁儿童的水平，解决了 92% 的任务，”Kosinski 写道。

但他警告说，应该谨慎对待这些结果。虽然人们问微软的 Bing Chat 是否有感知力，但目前 GPT-3 和大多数神经网络都有另一个共同特征：它们本质上是“黑匣子”。就神经网络而言，即使是它们的设计者也不知道它们是如何得出输出结果的。

“人工智能模型日益复杂，使我们无法理解它们的功能并直接从它们的设计中获得它们的能力。这与心理学家和神经科学家在研究原始黑匣子：人脑时所面临的挑战相呼应，”Kosinski 写道，他仍然希望研究人工智能可以解释人类的认知。

另外：微软的 Bing Chat 与用户争论，泄露机密信息

“我们希望心理科学能帮助我们跟上快速发展的人工智能。此外，研究人工智能可以提供对人类认知的洞察力。随着人工智能学习如何解决广泛的问题，它可能正在开发类似于人类所采用的机制。人脑解决同样的问题。”