新图灵测试：你是人吗？-七爪网

新图灵测试：你是人吗？

“我建议考虑这个问题，‘机器能思考吗？’”

— 艾伦图灵，计算机器与智能，1950 年

今年夏天，谷歌的 LaMDA 语言模型引发了争议，一位工程师声称该模型具有感知能力，这暗示着自艾伦图灵于 1950 年在一篇文章中定义了“图灵测试”的概念以来，人工智能已经发生了重大变化。

奠定计算基础的英国数学家图灵提出了他所谓的“模仿游戏”。两个实体，一个是人，一个是数字计算机，由第三个实体，一个人类审讯员提问。审讯者看不到另外两人，只能从他们打字的答案中简单地弄清楚两人中哪一个是人，哪一个是机器。

为什么不呢，图灵建议，让行为来解决问题。如果它像人一样回答，那么它就可以被归功于思考。

图灵确信机器会在图灵测试中变得如此出色，以至于到 2000 年，“人们将能够谈论机器思考而不期望被反驳。”

在通往未来的路上发生了一件有趣的事情。事实证明，人类将越来越多的时间花在机器的世界里，而不是相反。

另外：人工智能的真正目标可能不再是智能

人类越来越多地花时间做机器可以做的事情，如果不是更好的话。现代软件的众多成就之一就是用简单的任务占用人们的时间，例如您在社交媒体上所做的繁忙工作，诸如发帖、评论、“点赞”和快照之类的事情。

很明显，只要有一半的机会，大多数机器都可以完美地复制社交媒体行为。并不是因为像 OpenAI 的 GPT-3 语言程序这样的程序很像人类，而是因为在社交媒体上进行交互的低门槛重新定义了我们可以接受的“人类”行为。

随处可见，人类越来越多地从事几十年前看起来像是科幻小说的行为。

人类花费数千小时在亚马逊的 Mechanical Turk 上进行计件工作以生成 AI 测试数据。

人们夜以继日地工作，以调节 TikTok 和 Instagram Reels 等平台上的内容，这项活动的劳动量一度看起来像是工作场所的虐待，但现在被认为是维持社交媒体帝国和抵御的基本必需品关闭监管机构。

同样，可以想象，机器学习算法也可以或更好地完成此类活动。就像约翰亨利和蒸汽机一样，人类越来越多地尝试做机器的工作。

还有：有知觉？ Google LaMDA 感觉就像一个典型的聊天机器人

亚马逊的 Alexa 等设备使人们习惯于对数字助理说出指令。不仅语音识别技术令人惊叹，而且不断使用它的实践也是人类活动史上令人惊叹的发展。亚马逊的首席技术专家维尔纳沃格尔斯指出，对于老年人来说，通过语音与 Alexa 的互动已经成为与助手和伴侣的互动。

人类和机器如何度过他们的时间的最生动的表达是国际电子竞技比赛。虽然表面上是一场人类团队之间的比赛，看谁最擅长电子游戏，但它也已成为 AI 成就的领域。在其中一些竞赛中，DeepMind 的 AlphaStar 等机器已经变得与人类一样出色。

曾几何时，人类会花无数个小时沉浸在屏幕上的游戏中，而机器会通过与人类竞争来改进它们的编程，这再一次看起来像是离奇的小说。

所有这些行为变化加起来就是所谓的 AI 的哥白尼转变。波兰科学家尼古拉·哥白尼在 1500 年代颠覆了普遍持有的银河系观点，得出结论认为太阳并非围绕地球旋转，而是相反。

同样，直到过去十年左右，机器智能的每一个假设都涉及机器将自己插入我们的世界，成为类人猿并成功地驾驭情感和欲望，就像电影“A.I.”中那样。

相反，已经发生的事情是人类将越来越多的时间花在计算机活动中：点击屏幕、填写 Web 表单、浏览渲染的图形、组装产生模仿舞蹈动作的迭代视频、在虚拟机中重播相同的游戏场景。长达数小时的伸展运动。

在谷歌的 LaMDA 聊天机器人案例中，前谷歌工程师 Blake Lemoine 被指派测试该程序，这是对图灵挑战的有趣回应。只是，在 Lemoine 的案例中，他被预先告知这是一个程序。这并没有阻止他认为 LaMDA 有知觉，甚至是灵魂。

我们不知道 Lemoine 到底花了多少小时、几天、几周或几个月，但花很多很多时间与你被告知的东西聊天是一个程序，这再次成为人类历史上的一个新事件。

计算机科学家 Hector Levesque 曾指出“图灵测试有一个严重的问题：它过于依赖欺骗”。（强调 Levesque 的。）Levesque 写道，测试的自由形式意味着 AI 程序只能参与一系列对审讯者来说是人性化的技巧。

此类节目“严重依赖文字游戏、笑话、引语、旁白、情绪爆发、程序问题等，”Levesque 写道，“一切都会出现，除了对问题的明确和直接的回答！”

然而，这个笑话是针对 Levesque 的，也是针对我们所有人的。 Lemoine 被那套把戏迷住了。不断沉浸在屏幕世界中，沉浸到图灵从未想象过的程度，使得图灵的测试不再是对机器的测试，而是对人类的测试，测试人类将接受的有效内容。

另外：现在是机器接管的时候了

许多人工智能学者质疑 LaMDA 和其他聊天机器人的实际智能，但他们的意见可能是少数。如果不是研究而是休闲和生产力的活动越来越多地围绕着计算机交互，那么谁能说屏幕另一边的机器不匹配人类的点击呢？

毕竟，使用社交媒体的人除了与存储的图像或名称所附的文本之外，不会与任何其他事物进行交互，然而，人们却在他们的互动中充满了意义，对政治讨论感到兴奋，或者对名人的行为感到愤怒。人格错觉，即一个人的在线存在是真实的感觉，是如此强烈，这是将感知赋予机器的一小步。

在图灵测试的巧妙反转中，最近的谷歌人工智能程序翻转了审讯者和受试者的角色。

称为面试热身的 Google 程序是自然语言评估的一个示例，这是一种自然语言理解形式，程序必须决定问题的自由形式答案是否适合问题的上下文。

面试热身邀请一个人作为求职者连续回答多个问题。然后，该程序会评估受试者的回答与问题的性质相符的程度。谷歌建议 Warmup 是一种电子教练，可以代替人类帮助另一个人准备工作面试。

透过图灵原场景的镜头来看，这是一个反转。人类不再将机器放在房间里进行测试。相反，他们服从于机器的游戏规则，也许以合作的方式工作，让机器获得关于人类如何说话的数据，并让人类接受关于他们应该如何说话的指导。

最后的边界是完全扭转这个问题，并询问计算机环境中的人类是否真的表现出人类的特征。他们在 TikTok 上展示自己的表演视频，提交给一台机器，这台机器可能会让他们病毒式传播，也可能不会。是人类的追求吗？这是机器可以使用发明的身份更好地追求的追求吗？

在那最后的边界上，也许我们都在等待机器给出它认为足够智能的条件。