由于硬件不稳定、互连速度慢以及软件不成熟,DeepSeek 在华为 Ascend 芯片上训练数月失败,其下一代 R2 AI 模型的开发被严重推迟。The Register 报道:据三位不愿透露姓名的消息人士向英国《金融时报》透露,在今年早些时候推出引起业界轰动的 DeepSeek R1 之后,这家中国 AI 宠儿面临政府部门的压力,要求其在华为自主研发的芯片上训练该模型的继任者。但经过数月的努力以及华为整个工程师团队的帮助,不稳定的芯片、缓慢的互连以及不成熟的软件仍然是 DeepSeek 无法克服的难题,DeepSeek 显然无法成功完成一次训练。这次失败以及数据标记方面的挑战最终推迟了 DeepSeek R2 的发布,因为该公司重新开始使用 Nvidia 的 H20 GPU。据报道,该公司已将华为的 Ascend 加速器降级为推理任务。
在 Slashdot 上阅读更多内容。