Mistral 推出的全新嵌入模型,专为代码训练。Mistral 声称:
Codestral Embed 的表现明显优于当今市场上领先的代码嵌入器:Voyage Code 3、Cohere Embed v4.0 和 OpenAI 的大型嵌入模型。
该模型设计用于处理不同大小的数据。它们分别展示了 256、512、1024 和 1546 大小向量(256 位 = 每条记录 32 字节存储空间)、int8 和 float32 表示形式的性能数据。
我们的嵌入维度按相关性排序。对于任何整数目标维度 n,您可以选择保留前 n 个维度,以便在质量和成本之间取得平衡。
我认为这意味着他们正在使用Matryoshka 嵌入。
问题在于:基准测试看起来很棒,但模型只能通过其 API 获得(或以“联系我们”的价格进行内部部署)。
我非常乐意为访问这样的嵌入模型的 API 付费,但我只希望在模型本身也是开放权重的情况下才这样做,这样我就可以保留在将来需要时自己运行它的选项。
原因是,我从这个 API 中检索到的嵌入只有在未来能够继续计算更多时才能保持其价值。如果我要花钱计算和存储嵌入,我希望确保其价值在未来很长一段时间内都能得到保证。
如果获取新嵌入的唯一方式是通过 API,而 Mistral 关闭了该 API(或停业),那么我对存储的嵌入所做的投资就会立即崩溃。
我其实不想自己运行这个模型。支付 Mistral 每百万代币 0.15 美元(批量折扣 50%),这样就不用浪费我自己服务器的内存和 GPU 来保存这个模型了,真是太划算了!
在这种情况下,我想要开放权重的功能纯粹是因为它让我对我的投资未来充满信心。
原文: https://simonwillison.net/2025/May/28/codestral-embed/#atom-everything