引用 Jason Liu 的话 – 搞英语 → 看世界

我再次震惊地发现，如果嵌入高度主观的图像摘要（该摘要来自视觉语言模型），图像检索性能会比直接使用 CLIP 嵌入获得更好的效果。如果你告诉 LLM 该摘要将被嵌入并用于下游搜索。我曾经有一个系统，使用 CLIP 时 5 个样本的召回率从 28% 上升到使用 LLM 摘要时 5 个样本的召回率 75%。

—刘杰森

标签： vision-llms 、 generative-ai 、 ai 、 embeddings 、 llms 、 jason-liu

原文： https://simonwillison.net/2025/Sep/6/jason-liu/#atom-everything