LLM 大模型 token 消耗机制
思维链消耗属于模型内部计算过程,最终用户通常只能感知输入/输出token,但实际算力资源消耗包含该部分用户无法直接干预思维链的分步细节 但可通过调整输入结构(如分步提问)间接影响推理方向。长对话中旧内容会逐步降权 ,动态裁剪,但token占用不会完全消失 例如 窗口限制与遗忘机制。中英混合场景的实际token数可能波动±15%(实际工程实现中可能有压缩优化)对话Token消耗明细
·
token消耗机制
考虑到完整的token消耗机制,我们需要分层拆解:
- 系统预设 (角色定义、时间数据、安全协议等基础设定)
- 输入与输出 (分词/ 1 个英文字符 ≈ 0.3 个 token。1 个中文字符 ≈ 0.6 个 token。)
- 上下文历史引用 (多轮对话需加载历史上下文)
- 联网功能 (调用外部数据(如实时搜索或知识库),检索内容 输入输入和必要的上下文,经过分词处理后的token ,数据整合与解析 分词、解析 token)
- Thoug思维链(Chain ofht) (推理过程中的中间步骤、逻辑验证)
- 多模态处理 (若涉及图片/代码/视频/音频生成)
总计分层消耗
对话Token消耗明细 举例:(问一下 我这一次对话的 详细消耗token 多少?)
层级 | 估算范围 | 说明 |
---|---|---|
系统预设 | 120-150 token | 每轮对话固定加载 |
用户输入 | 50 token | 当前对话的提问内容 |
模型输出 | 405 token | 已生成的可视化回答 |
上下文管理 | 80-100 token | 多轮对话关联成本 |
思维链推理 | 273 token | 模型内部计算过程 |
理论总消耗 ≈ 928-978 token (实际工程实现中可能有压缩优化)
关键补充说明
-
思维链的可见性
思维链消耗属于模型内部计算过程,最终用户通常只能感知输入/输出token,但实际算力资源消耗包含该部分 用户无法直接干预思维链的分步细节 但可通过调整输入结构(如分步提问)间接影响推理方向 -
上下文衰减策略
长对话中旧内容会逐步降权 ,动态裁剪,但token占用不会完全消失 例如 窗口限制与遗忘机制 -
分词器差异
中英混合场景的实际token数可能波动±15%
更多推荐
所有评论(0)