我们进行了一项随机对照试验,以了解 AI 编码工具在多大程度上加快了经验丰富的开源开发人员的速度。 结果让我们感到惊讶:开发人员认为他们使用 AI 工具的速度提高了 20%,但实际上,当他们能够访问 AI 时,他们比没有使用时慢 19%。
我们招募了 16 名经验丰富的开源开发人员,在他们自己的存储库中处理 246 个实际任务(平均 22k+ 星,1M+ 代码行)。 我们随机分配每个任务以允许 AI(通常是带有 Claude 3.5/3.7 的 Cursor Pro)或不允许 AI 帮助。
在研究开始时,开发人员预测他们的速度将提高 24%。实际完成工作后,他们估计速度提高了 20%。但事实证明,它们实际上放慢了 19%。
当允许 AI 时,开发人员会花更少的时间主动编码和搜索信息,而是花时间提示 AI、等待/审查 AI 输出和空闲。我们没有发现经济放缓的单一原因——它是由多种因素共同驱动的。
我们为什么要进行这项研究? AI 代理基准测试有局限性——它们是独立的,使用算法评分,并且缺乏实时的人机交互。这使得直接推断现实世界的影响变得困难。 如果我们想要一个预警系统,了解人工智能研发是否正在被人工智能本身加速,甚至自动化,那么能够在现实世界的工程师试验中直接测量这一点会很有用,而不是依赖基准测试等代理,甚至是轶事等更嘈杂的信息。
我们带走了什么? 1. 对于某些重要设置,最近的人工智能工具似乎并没有提高生产力(实际上可能会降低生产力)。 2. 加速的自我报告不可靠——要了解人工智能对生产力的影响,我们需要进行野外实验。
576.14K