如今,一些最好的人工智能模型仍然在努力解决软件错误,而这些错误不会让经验丰富的开发人员感到困惑。 TechCrunch:微软研发部门 Microsoft Research 的一项新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在内的模型无法调试名为 SWE-bench Lite 的软件开发基准测试中的许多问题。结果发人深省,尽管 OpenAI 等公司发表了大胆的声明,但人工智能在编码等领域仍然无法与人类专家相媲美。该研究的合著者测试了九种不同的模型,作为“基于单一提示的代理”的骨干,该代理可以访问许多调试工具,包括 Python 调试器。他们要求该代理解决来自 SWE-bench Lite 的一组精选的 300 个软件调试任务。据合著者称,即使配备了更强大和更新的模型,他们的代理也很少成功完成一半以上的调试任务。 Claude 3.7 Sonnet 的平均成功率最高(48.4%),其次是 OpenAI 的 o1(30.2%)和 o3-mini(22.1%)。
在 Slashdot 上阅读这个故事的更多内容。