
谷歌推出“隐式缓存”以降低访问其最新AI模型的成本
谷歌正在其 Gemini API 中推出一项功能,该公司声称该功能将使第三方开发商能够以更低的价格获得其最新的AI模型。
谷歌将这项功能称为“隐式缓存”,并表示它可以将通过 Gemini API 传递给模型的“重复上下文”节省 75%。它支持谷歌的 Gemini 2.5 Pro 和 2.5 Flash 型号。
随着使用前沿模型的成本不断 增长 ,这对开发人员来说可能是个好消息。
缓存是人工智能行业广泛采用的一种做法,它可以重用模型中经常访问或预先计算的数据,从而降低计算需求和成本。例如,缓存可以存储用户经常向模型提出的问题的答案,从而无需模型重新创建针对同一请求的答案。
Google 之前提供过模型提示缓存,但仅限于显式提示缓存,这意味着开发者必须定义其最常用的提示。虽然显式提示缓存本应能够保证成本节省,但通常需要大量的手动工作。
一些开发者对谷歌在 Gemini 2.5 Pro 中显式缓存的实现方式感到不满,他们认为这可能会导致 API 费用高得惊人。过去一周,投诉愈演愈烈,促使 Gemini 团队道歉并承诺做出改进。
与显式缓存相比,隐式缓存是自动的。Gemini 2.5 模型默认启用隐式缓存,如果 Gemini API请求命中缓存,则会节省成本。
谷歌在一篇博客文章中解释道:“当你向 Gemini 2.5 型号之一发送请求时,如果该请求与之前的请求共享一个共同的前缀,那么它就有资格获得缓存命中。我们会动态地将节省的成本回馈给你。”
根据谷歌开发者文档,隐式缓存的最小提示令牌数(2.5 Flash 版)为 1,024 个,2.5 Pro 版为 2,048 个。这个数字并不算大,这意味着触发这些自动缓存机制应该不需要太多。令牌是数据模型使用的原始数据,1,000 个令牌相当于大约 750 个单词。
鉴于谷歌此前声称的通过缓存节省成本的说法与实际情况不符,这项新功能也存在一些需要用户注意的地方。首先,谷歌建议开发者在请求开始时保留重复的上下文,以增加隐式缓存命中的几率。该公司表示,那些可能在不同请求之间发生变化的上下文应该附加在请求末尾。
另一方面,谷歌没有提供任何第三方验证,证明新的隐式缓存系统能够实现承诺的自动节省。所以我们只能看看早期采用者的反应。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...