我刚刚在针对 Gemini 2.5 Flash 运行一长串提示时在令牌使用 JSON 中发现了一个cacheTokensDetails
键 – 尽管我自己没有配置缓存:
{"cachedContentTokenCount": 200658, "promptTokensDetails": [{"modality": "TEXT", "tokenCount": 204082}], "cacheTokensDetails": [{"modality": "TEXT", "tokenCount": 200658}], "thoughtsTokenCount": 2326}
我去搜索了一下,结果发现 Gemini 今天早些时候对其提示缓存进行了大规模升级:
隐式缓存直接将缓存成本节省传递给开发人员,无需创建显式缓存。现在,当您向 Gemini 2.5 模型之一发送请求时,如果该请求与之前的请求之一共享公共前缀,则它有资格获得缓存命中。我们将动态地将节省的成本回馈给您,并提供同样的 75% 代币折扣。
以前,您需要显式配置缓存并按小时付费才能保持缓存正常运行。
这个新机制真是方便多了!它模仿DeepSeek和OpenAI实现提示缓存的方式,使 Anthropic 成为剩下的大型提供商,需要您手动配置提示缓存才能使其正常工作。
标签:提示缓存、 Gemini 、提示工程、生成式 AI 、 llm 定价、 ai 、 llms
原文: https://simonwillison.net/2025/May/9/gemini-implicit-caching/#atom-everything