放大/人工智能生成的带有眼球的电子大脑图像。 (来源:Ars Technica)
周一,微软的研究人员推出了Kosmos-1,这是一种多模式模型,据报道可以分析图像的内容、解决视觉难题、执行视觉文本识别、通过视觉智商测试以及理解自然语言指令。研究人员认为,多模态 AI(集成了文本、音频、图像和视频等不同输入模式)是构建通用人工智能 (AGI) 的关键步骤,它可以在人类水平上执行一般任务。
研究人员在他们的学术论文中写道: “作为智能的基本组成部分,多模态感知是实现人工智能的必要条件,在知识获取和与现实世界打交道方面,语言不是你所需要的全部:调整感知与语言模型。”
Kosmos-1 论文中的视觉示例展示了模型分析图像并回答有关图像的问题、从图像中读取文本、为图像编写标题以及以 22-26% 的准确率进行视觉智商测试(更多内容见下文)。