2024-07-02 www.dnxtw.com
系统世家 7 月 2 日信息,月之暗面 Kimi 开放平台前后文缓存(Context Caching)功能打开公测。前后文缓存适用经常要求,反复引入很多原始前后文情景,能降低长文本实体模型花费,提高工作效率。官方表示花费最大减少 90 %,首 Token 延迟时间减少 83%,提高实体模型响应时间。
系统世家附 Kimi 开放平台前后文缓存功能公测详情如下:
据了解,前后文缓存是一种数据管理技术,容许系统事先存放能被经常请求海量数据或信息。当客户要求同样信息后,系统可以直接从缓存中提供,不用重算或者从原始记录源里查。
可用需求场景如下所示:
提供各种预置视频的 QA Bot,比如 Kimi API 助手
对于固定文档集合的经常查看,比如上市公司信息披露互动问答专用工具
对静态数据代码库或知识库系统的规律性剖析,比如各种 Copilot Agent
瞬时流量极大的爆款 AI 运用,比如哄一哄手机模拟器,LLM Riddles
互动标准繁杂的 Agent 类应用等
收费表明
前后文缓存收费方式关键分为以下三个部分:
Cache 建立花费
调用 Cache 建立插口,成功创建 Cache 后,依照 Cache 中 Tokens 按照实际量收费。24 元 / M token
Cache 存放花费
Cache 生存时间内,按min扣除 Cache 存放花费。10 元 / M token / min
Cache 调用花费
Cache 调用增加量 token 的收费:按实体模型售价收费
Cache 调用频次收费:Cache 生存时间内,用户使用 chat 接口请求已建立成功 Cache,若 chat message 内容和生存里的 Cache 配对取得成功,将按照调用频次扣除 Cache 调用花费。0.02 元 / 次
公测时长:功能正式上线,公测 3 个月,公测期价格可能及时调整。
公测资质:公测期内 Context Caching 功能优先选择提供给 Tier5 级别客户,别的用户范畴放宽时间待定。
以上就是系统世家所提供的最新动态,感谢您的阅读,更多精彩欢迎关注系统世家官方网站。
09-21140