Kimi 开放平台上下文缓存功能公测:降低最高 90% 的使用成本

2024-07-02 www.dnxtw.com

系统世家 7 月 2 日信息,月之暗面 Kimi 开放平台前后文缓存(Context Caching)功能打开公测。前后文缓存适用经常要求,反复引入很多原始前后文情景,能降低长文本实体模型花费,提高工作效率。官方表示花费最大减少 90 %,首 Token 延迟时间减少 83%,提高实体模型响应时间。

Kimi 开放平台上下文缓存功能公测:降

系统世家附 Kimi 开放平台前后文缓存功能公测详情如下:

技术简介

据了解,前后文缓存是一种数据管理技术,容许系统事先存放能被经常请求海量数据或信息。当客户要求同样信息后,系统可以直接从缓存中提供,不用重算或者从原始记录源里查。

Kimi 开放平台上下文缓存功能公测:降

使用场景

可用需求场景如下所示:

提供各种预置视频的 QA Bot,比如 Kimi API 助手

对于固定文档集合的经常查看,比如上市公司信息披露互动问答专用工具

对静态数据代码库或知识库系统的规律性剖析,比如各种 Copilot Agent

瞬时流量极大的爆款 AI 运用,比如哄一哄手机模拟器,LLM Riddles

互动标准繁杂的 Agent 类应用等

Kimi 开放平台上下文缓存功能公测:降Kimi 开放平台上下文缓存功能公测:降

收费表明

前后文缓存收费方式关键分为以下三个部分:

Cache 建立花费

调用 Cache 建立插口,成功创建 Cache 后,依照 Cache 中 Tokens 按照实际量收费。24 元 / M token

Cache 存放花费

Cache 生存时间内,按min扣除 Cache 存放花费。10 元 / M token / min

Cache 调用花费

Cache 调用增加量 token 的收费:按实体模型售价收费

Cache 调用频次收费:Cache 生存时间内,用户使用 chat 接口请求已建立成功 Cache,若 chat message 内容和生存里的 Cache 配对取得成功,将按照调用频次扣除 Cache 调用花费。0.02 元 / 次

Kimi 开放平台上下文缓存功能公测:降

公测时间与资质表明

公测时长:功能正式上线,公测 3 个月,公测期价格可能及时调整。

公测资质:公测期内 Context Caching 功能优先选择提供给 Tier5 级别客户,别的用户范畴放宽时间待定。

以上就是系统世家所提供的最新动态,感谢您的阅读,更多精彩欢迎关注系统世家官方网站。

相关阅读