我要投稿

arXiv研究显示：AI成长速度惊人，几年内将能完成人类耗时一个月的复杂任务

七爪网行业资讯

2025-04-01 0 1,036

在人工智能助力工作的当下时代，我们不禁要问：它是否真的能够胜任那些“具有实际经济价值”的繁复任务？我们又该如何评估其在这一领域的实际能力？这些问题已经成为众人关注的焦点。

传统评估方法的局限

目前对大型语言模型的评估，多使用GLUE、MMLU等标准测试。这些测试主要检查AI答题的能力，却不能体现其在实际应用中的表现。就像学生考试能答对题，并不意味着他们能胜任工作。这表明，传统的评估方式在评估AI工作能力上存在较大不足。

全新评估指标的提出

加州伯克利的这家非盈利研究机构METR，提出了一个新概念——“任务完成时间视界”。这个概念是用来评估AI工作能力的。它具体是指在成功率设定为50%的条件下，AI能完成的任务，人类专家平均需要多长时间来完成。简单来说，就是比较AI能承担的任务，人类需要多长时间才能完成。

研究验证的过程

METR团队设定了诸如复杂软件开发和机器学习研究等贴近实际的任务。他们记录了专业人士完成这些任务所需的真实时长，将其作为“人类基准”。随后，他们让13个2019年以后发布的AI模型执行这些任务，并利用回归分析绘制拟合曲线，计算出达到50%成功率的平均人类任务时长，这被称为“50%时间视界”。

早期模型的表现

2019年推出的GPT-2大型语言模型，在所有耗时超过一分钟的专家任务中均未成功。这说明那时的AI在处理具有一定难度和耗时的工作上，能力极为有限。它不能胜任稍微复杂和耗时的人类任务，暴露了早期AI技术的明显不足。

AI能力的快速提升

2023年之后的模型表现出色。例如，GPT-3、GPT-4 Turbo和o1等，其表现已经超越了研究预测的趋势线。这些模型的时间预测能力或许将从每212天翻倍提升至每90天翻倍。这一现象显示出，近年来人工智能技术的发展迅猛，解决复杂问题的能力显著增强。

未来趋势的预测

以目前的发展势头来看，METR研究团队预计，AI有望在2028年至2031年期间，以50%的准确率独立完成人类通常需要一个月才能完成的繁复工作。届时，AI在职场中的地位将变得更加突出。

大家对AI能否在规定时间内实现既定目标有信心吗？若觉得这篇文章对您有帮助，请别忘了点赞并转发！

申明：本文由第三方发布，内容仅代表作者观点，与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的，并不意味着赞同其观点或证实其描述，也不代表本网对其真实性负责。

七爪网行业资讯 arXiv研究显示：AI成长速度惊人，几年内将能完成人类耗时一个月的复杂任务 https://www.7claw.com/2815535.html

七爪网

七爪网源码交易平台

行业资讯

七爪网

18秒前 846

行业资讯

七爪网

14分钟前 290

行业资讯

七爪网

20分钟前 180

行业资讯

七爪网

20分钟前 176