研究显示：AI 编码工具未必能提升每位开发者的工作效率

近年来，Cursor、GitHub Copilot 等一众 AI 编码工具深刻改变了软件工程师的工作模式。这些工具依托 OpenAI、谷歌深度思维（Google DeepMind）、Anthropic 及 xAI 等机构开发的 AI 模型，有望通过自动生成代码、修复错误和测试变更等功能提升开发效率。而这些 AI 模型近年来在各类软件工程测试中的表现也突飞猛进。

不过，非营利 AI 研究组织 METR 于周四发布的一项新研究，对当前 AI 编码工具在提升资深开发者生产力方面的实际效果提出了质疑。

为开展这项研究，METR 进行了一项随机对照试验：招募 16 名经验丰富的开源开发者，让他们在自己常参与的大型代码仓库中完成 246 项实际任务。研究人员随机将约一半任务设为 “允许使用 AI”，开发者可借助 Cursor Pro 等先进 AI 编码工具；另一半任务则禁止使用任何 AI 工具。

在开始执行任务前，开发者们预计使用 AI 编码工具能将完成时间缩短 24%，但实际结果却并非如此。

研究人员表示：“令人惊讶的是，我们发现允许使用 AI 反而使完成时间增加了 19%—— 开发者在使用 AI 工具时速度更慢了。”

值得注意的是，参与研究的开发者中，仅有 56% 有使用本次研究提供的主要 AI 工具 Cursor 的经验。尽管几乎所有开发者（94%）都有在编码工作中使用某种基于网络的大语言模型（LLM）的经历，但对部分开发者而言，这是他们首次专门使用 Cursor。研究人员提到，开发者在参与研究前接受了 Cursor 的使用培训。

然而，METR 的研究结果对 AI 编码工具所承诺的、将在 2025 年实现的普遍生产力提升提出了挑战。该研究表明，开发者不应想当然地认为 AI 编码工具（尤其是后来被称为 “氛围编码工具” 的这类产品）能立即加快自己的工作流程。

METR 的研究人员指出了 AI 工具拖慢开发者速度的几个潜在原因：开发者在使用 “氛围编码工具” 时，花在向 AI 输入提示词和等待响应上的时间，比实际编码的时间还要多；此外，AI 在处理大型复杂代码库时往往表现不佳，而本次测试正是基于这类代码库展开的。

该研究的作者谨慎地表示，不应从这些发现中得出绝对结论 —— 他们并非认为当前的 AI 系统完全无法提升多数软件开发人员的效率。其他大规模研究已表明，AI 编码工具确实能加快软件工程师的工作流程。

作者还提到，近年来 AI 技术进步显著，即使三个月后再做相同实验，结果也可能大不相同。METR 的研究还发现，近年来 AI 编码工具在完成复杂、长期任务的能力上已有明显提升。

但这项研究无疑为人们对 AI 编码工具的预期收益持谨慎态度提供了又一理由。另有研究显示，当前的 AI 编码工具可能会引入错误，在某些情况下还会造成安全漏洞。

研究显示：AI 编码工具未必能提升每位开发者的工作效率

More posts

联合国附属机构打造 AI 难民化身，引发道德争议

Grok 陷入争议，xAI 发文致歉：技术失控，还是价值观失守？

AI领导力发展平台Praxis Labs被Torch收购

谷歌为 Veo 3 新增图像转视频功能，加速 AI 内容生成赛道布局