我再次震惊地发现,如果嵌入高度主观的图像摘要(该摘要来自视觉语言模型),图像检索性能会比直接使用 CLIP 嵌入获得更好的效果。如果你告诉 LLM 该摘要将被嵌入并用于下游搜索。我曾经有一个系统,使用 CLIP 时 5 个样本的召回率从 28% 上升到使用 LLM 摘要时 5 个样本的召回率 75%。
—刘杰森
标签: vision-llms 、 generative-ai 、 ai 、 embeddings 、 llms 、 jason-liu
原文: https://simonwillison.net/2025/Sep/6/jason-liu/#atom-everything