微软推出可理解图像内容、通过智商测试的人工智能模型

放大/人工智能生成的带有眼球的电子大脑图像。（来源：Ars Technica）

周一，微软的研究人员推出了Kosmos-1，这是一种多模式模型，据报道可以分析图像的内容、解决视觉难题、执行视觉文本识别、通过视觉智商测试以及理解自然语言指令。研究人员认为，多模态 AI（集成了文本、音频、图像和视频等不同输入模式）是构建通用人工智能 (AGI) 的关键步骤，它可以在人类水平上执行一般任务。

研究人员在他们的学术论文中写道： “作为智能的基本组成部分，多模态感知是实现人工智能的必要条件，在知识获取和与现实世界打交道方面，语言不是你所需要的全部：调整感知与语言模型。”

Kosmos-1 论文中的视觉示例展示了模型分析图像并回答有关图像的问题、从图像中读取文本、为图像编写标题以及以 22-26% 的准确率进行视觉智商测试（更多内容见下文）。

阅读剩余的 6 段|评论

原文： https://arstechnica.com/?p=1920920