
BBC 昨天发布的一项研究 (PDF) 发现,人工智能新闻摘要工具经常生成不准确或误导性的摘要,51% 的回复包含重大问题。 The Register 报道称:该研究重点关注 OpenAI 的 ChatGPT、微软的 Copilot、谷歌的 Gemini 和 Perplexity 助手,评估它们“准确回答新闻问题的能力;以及它们的答案是否忠实代表作为来源的 BBC 新闻报道”。在研究期间,助手们被允许访问 BBC 网站,并询问了 100 个有关新闻的问题,并被提示尽可能从 BBC 新闻文章中获取信息。英国广播公司表示,通常情况下,这些模特会被“阻止”访问广播公司的网站。 BBC 记者(“问题主题的所有专家”)对回复的准确性、公正性以及对 BBC 内容的表述情况进行了审查。总体而言: – 在所有人工智能对新闻问题的回答中,51% 被认为存在某种形式的重大问题。 – 19% 引用 BBC 内容的人工智能答案引入了事实错误——不正确的事实陈述、数字和日期。 – 来自 BBC 文章的 13% 的引用要么是对原始来源进行了更改,要么没有出现在引用的文章中。但哪个聊天机器人表现最差? Beeb 报道称,“Gemini 中 34%、Copilot 中 27%、Perplexity 中 17% 以及 ChatGPT 中 15% 的受访者被认为在如何呈现 BBC 内容作为来源方面存在重大问题。” “最常见的问题是事实不准确、来源和上下文缺失。” […] BBC 新闻与时事部首席执行官黛博拉·特内斯 (Deborah Turness) 在一篇附带的博客文章中写道:“人工智能带来的非凡好处,其代价绝不能是让人们在寻找答案时得到扭曲的、有缺陷的内容,而这些内容本身就是事实。在一个看似混乱的世界里,寻求清晰的消费者会遇到更多的困惑,这肯定是不对的。“不难看出,人工智能的扭曲可能会以多快的速度破坏人们对事实和经过验证的信息本已脆弱的信心。我们生活在困难时期,人工智能扭曲的标题要多久才会对现实世界造成重大伤害?开发Gen AI工具的公司正在玩火。”各种模型的训练截止日期当然没有帮助,但研究暴露了生成式AI在总结内容方面的弱点。即使可以直接访问他们被询问的信息,这些助手仍然经常凭空提取“事实”。
在 Slashdot 上阅读这个故事的更多内容。