研究显示:AI 编码工具未必能提升每位开发者的工作效率

近年来,Cursor、GitHub Copilot 等一众 AI 编码工具深刻改变了软件工程师的工作模式。这些工具依托 OpenAI、谷歌深度思维(Google DeepMind)、Anthropic 及 xAI 等机构开发的 AI 模型,有望通过自动生成代码、修复错误和测试变更等功能提升开发效率。而这些 AI 模型近年来在各类软件工程测试中的表现也突飞猛进。

不过,非营利 AI 研究组织 METR 于周四发布的一项新研究,对当前 AI 编码工具在提升资深开发者生产力方面的实际效果提出了质疑。

为开展这项研究,METR 进行了一项随机对照试验:招募 16 名经验丰富的开源开发者,让他们在自己常参与的大型代码仓库中完成 246 项实际任务。研究人员随机将约一半任务设为 “允许使用 AI”,开发者可借助 Cursor Pro 等先进 AI 编码工具;另一半任务则禁止使用任何 AI 工具。

在开始执行任务前,开发者们预计使用 AI 编码工具能将完成时间缩短 24%,但实际结果却并非如此。

研究人员表示:“令人惊讶的是,我们发现允许使用 AI 反而使完成时间增加了 19%—— 开发者在使用 AI 工具时速度更慢了。”

值得注意的是,参与研究的开发者中,仅有 56% 有使用本次研究提供的主要 AI 工具 Cursor 的经验。尽管几乎所有开发者(94%)都有在编码工作中使用某种基于网络的大语言模型(LLM)的经历,但对部分开发者而言,这是他们首次专门使用 Cursor。研究人员提到,开发者在参与研究前接受了 Cursor 的使用培训。

然而,METR 的研究结果对 AI 编码工具所承诺的、将在 2025 年实现的普遍生产力提升提出了挑战。该研究表明,开发者不应想当然地认为 AI 编码工具(尤其是后来被称为 “氛围编码工具” 的这类产品)能立即加快自己的工作流程。

METR 的研究人员指出了 AI 工具拖慢开发者速度的几个潜在原因:开发者在使用 “氛围编码工具” 时,花在向 AI 输入提示词和等待响应上的时间,比实际编码的时间还要多;此外,AI 在处理大型复杂代码库时往往表现不佳,而本次测试正是基于这类代码库展开的。

该研究的作者谨慎地表示,不应从这些发现中得出绝对结论 —— 他们并非认为当前的 AI 系统完全无法提升多数软件开发人员的效率。其他大规模研究已表明,AI 编码工具确实能加快软件工程师的工作流程。

作者还提到,近年来 AI 技术进步显著,即使三个月后再做相同实验,结果也可能大不相同。METR 的研究还发现,近年来 AI 编码工具在完成复杂、长期任务的能力上已有明显提升。

但这项研究无疑为人们对 AI 编码工具的预期收益持谨慎态度提供了又一理由。另有研究显示,当前的 AI 编码工具可能会引入错误,在某些情况下还会造成安全漏洞。