微软研究显示人工智能模型仍然难以调试软件

编程_64.png

如今，一些最好的人工智能模型仍然在努力解决软件错误，而这些错误不会让经验丰富的开发人员感到困惑。 TechCrunch：微软研发部门 Microsoft Research 的一项新研究表明，包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在内的模型无法调试名为 SWE-bench Lite 的软件开发基准测试中的许多问题。结果发人深省，尽管 OpenAI 等公司发表了大胆的声明，但人工智能在编码等领域仍然无法与人类专家相媲美。该研究的合著者测试了九种不同的模型，作为“基于单一提示的代理”的骨干，该代理可以访问许多调试工具，包括 Python 调试器。他们要求该代理解决来自 SWE-bench Lite 的一组精选的 300 个软件调试任务。据合著者称，即使配备了更强大和更新的模型，他们的代理也很少成功完成一半以上的调试任务。 Claude 3.7 Sonnet 的平均成功率最高（48.4%），其次是 OpenAI 的 o1（30.2%）和 o3-mini（22.1%）。

在 Slashdot 上阅读这个故事的更多内容。

原文： https://developers.slashdot.org/story/25/04/11/0519242/ai-models-still-struggle-to-debug-software-microsoft-study-shows?utm_source=rss1.0mainlinkanon&utm_medium=feed