Salesforce 研究发现法学硕士 (LLM) 代理未能通过 CRM 和保密性测试

Salesforce 主导的一项新研究发现，基于 LLM 的 AI 代理在实际 CRM 任务中表现不佳，在简单任务中的成功率仅为 58%，在多步骤任务中的成功率则降至 35%。此外，他们的保密意识也较差。上月底发表的一篇论文指出：“代理的保密意识较低，虽然可以通过有针对性的提示来提高，但这往往会对任务绩效产生负面影响。” The Register 报道：Salesforce AI 研究团队认为，现有的基准测试未能严格衡量 AI 代理的能力或局限性，并且在很大程度上忽略了对其识别敏感信息和遵守适当数据处理协议能力的评估。该研究部门的 CRMArena-Pro 工具被输入到一条包含真实合成数据的数据管道中，以填充 Salesforce 组织，该组织充当沙盒环境。代理接收用户查询，并决定是调用 API 还是直接回复用户以获取更多信息或提供答案。该论文指出：“这些发现表明，当前的 LLM 能力与实际企业场景的多方面需求之间存在巨大差距。” […] 人工智能代理可能很有用，但是，在得到证实之前，组织应该谨慎依赖任何好处。

在 Slashdot 上阅读更多内容。

原文： https://yro.slashdot.org/story/25/06/16/2054205/salesforce-study-finds-llm-agents-flunk-crm-and-confidentiality-tests?utm_source=rss1.0mainlinkanon&utm_medium=feed