苹果升级后的人工智能模型性能不佳

根据苹果本周公布的基准测试结果，其最新的人工智能模型仍然落后于竞争对手。这家科技巨头最新的“Apple On-Device”模型可在iPhone和其他设备上本地运行，在人工评估文本生成质量方面，其表现仅与谷歌和阿里巴巴类似规模的模型“相当”——尽管是苹果最新发布的模型，但其表现并不算更好。而苹果更强大的“Apple Server”模型（专为数据中心部署而设计）则进一步拉大了性能差距。人工测试人员认为它在文本生成任务中落后于OpenAI一年前推出的GPT-4o。在图像分析测试中，评估人员更倾向于Meta的Llama 4 Scout模型，而非Apple Server模型。考虑到Llama 4 Scout本身在各种基准测试中的表现均逊于谷歌、Anthropic和OpenAI的领先模型，这一结果尤为引人注目。