应用分类
手游分类

Kimi 开放平台上下文缓存功能公测：降低最高 90% 的使用成本

2024-07-02 www.dnxtw.com

系统世家 7 月 2 日信息，月之暗面 Kimi 开放平台前后文缓存（Context Caching）功能打开公测。前后文缓存适用经常要求，反复引入很多原始前后文情景，能降低长文本实体模型花费，提高工作效率。官方表示花费最大减少 90 %，首 Token 延迟时间减少 83%，提高实体模型响应时间。

Kimi 开放平台上下文缓存功能公测：降

系统世家附 Kimi 开放平台前后文缓存功能公测详情如下：

技术简介

据了解，前后文缓存是一种数据管理技术，容许系统事先存放能被经常请求海量数据或信息。当客户要求同样信息后，系统可以直接从缓存中提供，不用重算或者从原始记录源里查。

Kimi 开放平台上下文缓存功能公测：降

使用场景

可用需求场景如下所示：

提供各种预置视频的 QA Bot，比如 Kimi API 助手

对于固定文档集合的经常查看，比如上市公司信息披露互动问答专用工具

对静态数据代码库或知识库系统的规律性剖析，比如各种 Copilot Agent

瞬时流量极大的爆款 AI 运用，比如哄一哄手机模拟器，LLM Riddles

互动标准繁杂的 Agent 类应用等

Kimi 开放平台上下文缓存功能公测：降

收费表明

前后文缓存收费方式关键分为以下三个部分：

Cache 建立花费

调用 Cache 建立插口，成功创建 Cache 后，依照 Cache 中 Tokens 按照实际量收费。24 元 / M token

Cache 存放花费

Cache 生存时间内，按min扣除 Cache 存放花费。10 元 / M token / min

Cache 调用花费

Cache 调用增加量 token 的收费：按实体模型售价收费

Cache 调用频次收费：Cache 生存时间内，用户使用 chat 接口请求已建立成功 Cache，若 chat message 内容和生存里的 Cache 配对取得成功，将按照调用频次扣除 Cache 调用花费。0.02 元 / 次

Kimi 开放平台上下文缓存功能公测：降

公测时间与资质表明

公测时长：功能正式上线，公测 3 个月，公测期价格可能及时调整。

公测资质：公测期内 Context Caching 功能优先选择提供给 Tier5 级别客户，别的用户范畴放宽时间待定。

以上就是系统世家所提供的最新动态，感谢您的阅读，更多精彩欢迎关注系统世家官方网站。

相关阅读

捡手机向事主要价 5000 元未果后声称“弄丢”，法院判赔 8500 元

捡手机向事主要价 5000 元未果后声称“弄丢”，法院判赔 8500 元

07-08273

新存科技发布国内最大 64Gb 单芯片容量 3D 新型存储器芯片 NM101

新存科技发布国内最大 64Gb 单芯片容量 3D 新型存储器芯片 NM101

09-27457

波音启动 190 亿美元股票发行计划，满足流动性需要并防止评级下调

波音启动 190 亿美元股票发行计划，满足流动性需要并防止评级下调

10-28382

51La