热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们进行了一项随机对照试验,以了解 AI 编码工具在多大程度上加快了经验丰富的开源开发人员的速度。
结果让我们感到惊讶:开发人员认为他们使用 AI 工具的速度提高了 20%,但实际上,当他们能够访问 AI 时,他们比没有使用时慢 19%。

我们招募了 16 名经验丰富的开源开发人员,在他们自己的存储库中处理 246 个实际任务(平均 22k+ 星,1M+ 代码行)。
我们随机分配每个任务以允许 AI(通常是带有 Claude 3.5/3.7 的 Cursor Pro)或不允许 AI 帮助。

在研究开始时,开发人员预测他们的速度将提高 24%。实际完成工作后,他们估计速度提高了 20%。但事实证明,它们实际上放慢了 19%。

当允许 AI 时,开发人员会花更少的时间主动编码和搜索信息,而是花时间提示 AI、等待/审查 AI 输出和空闲。我们没有发现经济放缓的单一原因——它是由多种因素共同驱动的。

我们为什么要进行这项研究?
AI 代理基准测试有局限性——它们是独立的,使用算法评分,并且缺乏实时的人机交互。这使得直接推断现实世界的影响变得困难。
如果我们想要一个预警系统,了解人工智能研发是否正在被人工智能本身加速,甚至自动化,那么能够在现实世界的工程师试验中直接测量这一点会很有用,而不是依赖基准测试等代理,甚至是轶事等更嘈杂的信息。
我们带走了什么?
1. 对于某些重要设置,最近的人工智能工具似乎并没有提高生产力(实际上可能会降低生产力)。
2. 加速的自我报告不可靠——要了解人工智能对生产力的影响,我们需要进行野外实验。
576.14K
热门
排行
收藏