在哥本哈根未来产品日 (Future Product Days) 上,托比亚斯·阿林 (Tobias Ahlin) 发表了题为《产品创造者的未来》的演讲,他认为,人工智能系统想要取得实际成果,缺少的因素不仅仅是其原始能力,而是不同的观点和辩论。以下是我对他演讲的记录:
- 许多人正在描绘未来的愿景:并行代理按需创建产品和功能。
- 2025年标志着代理工作流程成为日常产品开发的一部分。人工智能代理在标准化测试中的表现显著优于人类:阅读、写作、数学、编程,甚至专业领域。
- 然而,我们面临着 100 名实习生的问题:管理那些个体更聪明但“不知道自己要去哪里”的代理人
当前系统的局限性
- 基本推理能力的缺失:人工智能模型存在基本推理能力的缺失。例如,人工智能可以计算出石头剪刀布的概率,但却无法理解自己后手的劣势。
- 实际应用中的致命错误:建议用有毒胶水制作披萨,建议吃石头来获取矿物质。
- 性能停滞问题:与通过持续努力不断进步的人类不同,人工智能代理在最初的成功后会停滞不前,即使投入更多时间也无法取得有意义的进步
- 现实世界与基准性能对比:Monitor 的研究表明,63% 的 AI 生成代码未通过测试,且无 0% 的代码无需人工干预即可运行
推理的社会性
- 真正的推理从根本上来说是一种社会功能,“针对辩论和交流进行优化,而不是孤立地思考”
- 法院系统体现了这一点:对抗性辩论通过冲突相互磨练和改进
- 当通过批判性审查系统构建时,个人偏见可以相互补充
- 团队之间自然会产生利益冲突:设计师想要做更多,开发人员更注重效率,而项目经理则平衡范围。这种冲突会带来更好的结果
- 在创造力测试中,AI 的表现远超人类。康奈尔大学的一项研究表明,GPT-4 在创意生成方面的表现优于 90.6% 的人类,而 AI 创意进入前 10% 的可能性是人类的七倍。
- 因此,产生想法的成本正在趋向于零,但人类的能力仍然受到我们评估和综合这些想法的能力的限制
人工智能代理的未来
- 当前的代理商主要帮助生产,但未来的生产力需要在评估和综合方面付出同等的努力。
- 制度化的否定确认:创建一种通过分歧来澄清问题的系统,类似于科学同行评审
- 代理设计为在循环中产生分歧:一个代理生成代码,另一个代理对其进行评估,从而创建可以克服性能瓶颈的反馈系统
- 真正的推理将来自于那些被设计成循环反对的代理,而不是简单的思路链方法