Gemini 2.5 型号现在支持隐式缓存

我刚刚在针对 Gemini 2.5 Flash 运行一长串提示时在令牌使用 JSON 中发现了一个cacheTokensDetails键 – 尽管我自己没有配置缓存：

{"cachedContentTokenCount": 200658, "promptTokensDetails": [{"modality": "TEXT", "tokenCount": 204082}], "cacheTokensDetails": [{"modality": "TEXT", "tokenCount": 200658}], "thoughtsTokenCount": 2326}

我去搜索了一下，结果发现 Gemini 今天早些时候对其提示缓存进行了大规模升级：

隐式缓存直接将缓存成本节省传递给开发人员，无需创建显式缓存。现在，当您向 Gemini 2.5 模型之一发送请求时，如果该请求与之前的请求之一共享公共前缀，则它有资格获得缓存命中。我们将动态地将节省的成本回馈给您，并提供同样的 75% 代币折扣。

以前，您需要显式配置缓存并按小时付费才能保持缓存正常运行。

这个新机制真是方便多了！它模仿DeepSeek和OpenAI实现提示缓存的方式，使 Anthropic 成为剩下的大型提供商，需要您手动配置提示缓存才能使其正常工作。

标签：提示缓存、 Gemini 、提示工程、生成式 AI 、 llm 定价、 ai 、 llms

原文： https://simonwillison.net/2025/May/9/gemini-implicit-caching/#atom-everything