人工智能在创造力测试中超越了普通人类

一项研究测试了多种人工智能模型和10万名受试者。结果显示，人工智能的表现优于平均水平，但落后于表现最佳的人工智能。

人工智能批评者认为，创造力这种特质在可预见的未来很可能仍将是人类的专属。但一项大规模研究发现，目前领先的生成式语言模型在语言创造力测试中的表现已经可以超越人类的平均水平。

近年来，随着人工智能工具的兴起，机器是否具备创造力这一问题再次成为人们关注的焦点。这些工具能够流畅且有风格地生成文本和图像。尽管许多专家认为，真正的创造力离不开对世界的切身体验，但这些模型日益精湛的输出结果却对这一观点提出了挑战。

为了更客观地审视这个问题，蒙特利尔大学的研究人员，包括人工智能先驱约书亚·本吉奥（Yoshua Bengio），开展了迄今为止规模最大的机器与人类创造力对比评估。研究团队将领先的人工智能模型的输出结果与10万名参与者使用标准化心理创造力测试的回答进行了比较，发现目前最好的模型虽然已经超越了普通人类，但与顶尖模型相比仍然存在显著差距。

“这一结果可能令人惊讶，甚至令人不安，但我们的研究也强调了一个同样重要的观察结果：即使是最好的人工智能系统，仍然达不到最有创造力的人类所达到的水平，”领导这项研究的卡里姆·杰尔比在一份新闻稿中说。

这项发表在《科学报告》上的研究的核心测试被称为发散联想任务，要求参与者生成10个含义尽可能不同的词语。词语间的平均语义距离越大，得分越高。

这项测试中人类的表现与其他成熟的创造力测试结果相符，这些测试侧重于创意产生、写作和创造性问题解决能力。但至关重要的是，这项测试完成起来非常快捷，这使得研究人员能够通过互联网对更大规模的人群进行测试。

他们的发现令人震惊。OpenAI 的 GPT-4、谷歌的 Gemini Pro 1.5 以及 Meta 的 Llama 3 和 Llama 4 的表现都优于普通人类。然而，当他们测量排名前 50% 的人类参与者的平均表现时，这一结果超过了所有测试模型。当他们分别取排名前 25% 和前 10% 的人类参与者的平均表现时，差距进一步拉大。

研究人员想看看这些分数是否能转化为更复杂的创意任务，因此他们还让模型生成俳句、电影剧情简介和微型小说。他们使用一种名为“语义发散整合”（Divergent Semantic Integration）的指标来分析输出结果，该指标用于评估叙事中整合的思想多样性。虽然模型表现相对较好，但研究团队发现，人类撰写的样本仍然比人工智能撰写的样本更具创意。

然而，研究团队还发现，通过一些简单的调整，他们可以提升人工智能的创造力。首先，他们调整了一个名为“温度”的模型设置，该设置控制着模型输出的随机性。当GPT-4的“温度”值调到最高时，其创造力得分超过了72%的人类参与者。

研究人员还发现，精心调整给模型的提示语也有帮助。当明确指示模型使用“依赖于词源变化的策略”时，GPT-3.5 和 GPT-4 的表现都优于使用最初较为笼统的提示语。

杰比表示，对于创意专业人士而言，顶尖人类表演者与最先进的模型之间持续存在的差距应该能让他们感到些许安心。但他同时也认为，研究结果表明人们应该认真对待这些模型，将其视为潜在的创意合作伙伴。

“生成式人工智能首先已成为服务于人类创造力的极其强大的工具，”他说道。“它不会取代创作者，但对于那些选择使用它的人来说，它将深刻地改变他们想象、探索和创造的方式。”

无论如何，这项研究为日益增多的研究成果增添了新的内容，这些研究引发了关于创造力本质以及创造力是否是人类独有特质的诸多令人不安的问题。鉴于围绕这一问题的强烈情绪，这项研究不太可能就此达成最终定论，但其发现确实标志着迄今为止对这一问题进行客观衡量的较为具体的尝试之一。

这篇文章《人工智能在创造力测试中击败普通人类》最初发表于SingularityHub 。

原文： https://singularityhub.com/2026/01/27/ai-now-beats-the-average-human-in-tests-of-creativity/