过去几个月,Hamel Husain 和 Shreya Shankar 一直在为工程师和项目经理开设一门付费的、基于群组的 AI 评估课程。Hamel 收集了课程中最常见的问题的答案。
这里有很多切实可行的建议。我仍然相信,稳健的评估方法是区分精心设计、可靠的人工智能系统和 YOLO 交叉测试的最重要因素,并希望这种方法能够有效促进开发。
哈默尔说道:
重要的是要认识到评估是开发过程的一部分,而不是一个单独的项目,类似于调试是软件开发的一部分。[…]
在我们参与的项目中, 60% 到 80% 的开发时间都花在了错误分析和评估上。预计你的大部分精力将用于理解故障原因(例如查看数据),而不是构建自动化检查。
我发现这个建议很有用而且令人惊讶:
如果你的评估通过率是100%,那么你的系统可能还不够有挑战性。70%的通过率可能表明评估更有意义,实际上是在对你的申请进行压力测试。
来源: Hacker News
原文: https://simonwillison.net/2025/Jul/3/faqs-about-ai-evals/#atom-everything