人工智能将很快接管人类需要数周时间的项目
人工智能正在迅速进步,很快就会承担人类需要数周才能完成的项目。专家分析表明,领先的人工智能模型正在取得进展,到 2029 年可以用人类专业知识在更短的时间内完成任务。

人工智能将很快接管人类需要数周时间的项目
当今的人工智能 (AI) 系统在长期任务上无法超越人类,但它们正在不断发展 迅速地 根据对领先模型的分析,进一步缩小差距的速度可能比许多人预期的要快 1 。
总部位于加利福尼亚州伯克利的非营利组织 METR 在编程、网络安全、一般推理和机器学习方面开发了近 170 个现实世界任务,然后通过测量专家完成这些任务所需的时间来建立“人类基线”。
然后,该团队开发了一个指标来评估进展情况 人工智能模型 ,称为“任务完成时间范围”。这是程序员完成人工智能模型能够以一定成功率完成的任务通常需要的时间。
在本周 arXiv 上发布的预印本中,METR 报告称,OpenAI 于 2019 年发布的早期大型语言模型 (LLM) GPT-2 在所有人类专家需要一分钟多的任务上都失败了。美国初创公司 Anthropic 在 2 月份发布的 Claude 3.7 Sonnet 完成了人类需要 59 分钟才能完成的任务的 50%。
研究显示,总体而言,自 2019 年以来,13 个领先人工智能模型的时间范围大约每 7 个月翻一番。 2024 年,人工智能时间范围呈指数级增长,最新模型大约每三个月就会增加一倍。该工作尚未经过正式审查。
从 2019 年到 2024 年,METR 表示,到 2029 年,甚至可能更早,人工智能模型将能够以 50% 的可靠性完成人类大约需要一个月才能完成的任务。
该论文指出,一个月的专业知识足以创办一家新公司或做出科学发现。
然而,加拿大多伦多大学管理学教授约书亚·甘斯(Joshua Gans)曾撰写过有关人工智能经济学的文章,他解释说,此类预测并不是特别有用。 “推断很诱人,但我们仍然不知道人工智能将如何真正用于使这些预测有意义,”他说。
判断人类与人工智能
该团队选择了 50% 的成功率,因为它对于数据分布的微小变化最为稳健。 “如果你选择非常低或非常高的阈值,添加或删除单个成功或失败的任务会相应地极大地改变估计,”合著者劳伦斯·陈(Lawrence Chan)解释道。
尽管整体倍增时间和趋势线相似,但可靠性从 50% 提高到 80% 使平均时间范围缩短了五倍。
过去五年来,我们在以下方面取得了进步 LLM 的一般技能 主要由规模的增加(训练数据量、训练时间和模型参数数量)驱动。该论文将时间范围指标的进步主要归因于逻辑推理、工具使用、纠错和任务信心的改进。
METR 评估时间范围的方法解决了现有人工智能基准的一些局限性,这些基准仅与现实世界的工作松散匹配,并且随着模型的改进很快变得“饱和”。合著者本·韦斯特 (Ben West) 表示,它提供了一种连续、直观的衡量标准,可以更好地捕捉一段时间内的重大进展。
领先的人工智能模型在许多方面实现了超人的表现 基准测试 ,但迄今为止对经济的影响相对较小,韦斯特解释道。 METR 的最新研究为这个难题提供了部分答案:韦斯特说,最好的模型显示的时间范围约为 40 分钟,而一个人在这段时间内可以做的具有经济价值的工作并不多。
然而,来自加利福尼亚州旧金山的人工智能研究员兼企业家 Anton Troynikov 解释说,如果组织更愿意尝试和投资有效使用这些模型,人工智能将产生更大的经济影响。
-
Kwa,T.等人。 arXiv 预印本 https://doi.org/10.48550/arXiv.2503.14499 (2025)。