近日,浙江大学计算机学院、经济学院、区块链与数据安全国家重点实验室联合阿里云发布综述论文:

Token Economics for LLM Agents: A Dual-View Study from Computing and Economics

该工作系统梳理了 LLM Agent 中 Token 消耗、成本优化、系统协作与安全治理等关键问题,并提出 Token Economics 框架,尝试从经济学视角重新理解 Agent 系统中的 Token 使用与资源分配。

论文指出,随着 LLM Agent 从实验环境走向金融、法律、医疗等真实高风险场景,Token 已不再只是模型输入输出中的技术单位,而正在成为影响系统成本、延迟、安全性与可扩展性的核心资源。

arXiv 论文:arXiv:2605.09104
GitHub 项目:SuDIS-ZJU/Token-Economics

论文与相关资源将持续更新,欢迎社区交流与共建。

一、背景与动机:Agent 时代的核心挑战,正在从“能力扩展”转向“Token 效率”

过去几年,大模型研究不断推动 Agent 系统具备更强的规划、推理、工具调用和多轮交互能力。然而,随着 Agent 能力增强,其运行过程中的 Token 消耗也在快速增长。

OpenRouter 平台数据显示,周 Token 处理量从 2024 年 12 月的 0.4 万亿增长至 2026 年 3 月的 27.0 万亿,15 个月内增长近 68 倍

这意味着,Token 消耗已经从一个工程实现细节,逐渐演变为影响 Agent 系统规模化部署的系统性压力。

在真实应用中,Token 不仅对应模型调用费用,还直接关联计算资源、响应延迟、上下文管理、工具调用、安全防御与平台治理等多方面成本。尤其在金融、法律、医疗等高风险场景中,Agent 系统不仅要“能完成任务”,还必须在有限预算下做到高效、可靠、可控。

然而,现有研究往往分散在不同方向:推理加速、上下文压缩、工具调用、记忆管理、多 Agent 协作、安全治理、平台调度等领域各自发展,却缺乏一个统一框架来回答一个核心问题:

如何在保证输出质量的前提下,最小化 Agent 系统的 Token 成本?

这正是 Token Economics 希望回答的问题。

二、核心理论:Dual-View 双视角框架

本综述提出了一个 Dual-View 双视角框架,将计算机科学中的 Agent 系统优化问题,与经济学中的成本、生产、交易、机制设计和外部性等理论联系起来。

在这一框架下,Token 被赋予了三重经济属性:

第一,Token 是生产要素。
生成 Token 需要消耗 GPU、显存、电力、时间等计算资本。因此,Token 可以被视为 Agent 系统完成任务时投入的核心生产资源。

第二,Token 是交换媒介。
当前主流 AI 服务普遍采用按 Token 计费的方式,使 Token 成为 AI 经济体系中的事实定价单位和流通媒介。

第三,Token 是记账单位。
任务复杂度、系统成本与 AI 生产力,都可以通过 Token 支出得到相对客观的量化。

基于这一视角,论文将 Agent 系统的核心优化目标概括为:

在保证输出质量达标的约束下,最小化总成本。

即:

其中,  表示输出质量,  表示任务要求的质量阈值,  表示系统总成本。

三、四维分类体系:从单 Agent 到 Agent 生态系统

围绕 Token Economics 框架,论文系统调研了 200 余篇相关研究,并按照 Agent 系统的组织复杂度构建了四个层次的分类体系:单 Agent、多 Agent、Agent 生态系统,以及安全维度。

1. 微观层:单 Agent 的 Token 效率

在单 Agent 层面,核心问题是:一个 Agent 应该如何高效使用 Token?

论文将其映射到新古典企业理论与要素替代理论。Agent 在完成任务时,通常需要在两类 Token 成本之间权衡:

一类是模型内部推理产生的 Token,例如思维链、规划步骤和中间推理;另一类是外部工具调用产生的 Token,例如检索、API 调用、数据库查询和工具返回结果。

这两类 Token 具有不同的成本结构。系统需要在“让模型多思考”和“调用外部工具”之间寻找成本最优的替代关系。

该部分覆盖的研究方向包括:推理效率、Token 数量控制、上下文管理、记忆架构、工具调用、检索增强、规划推理与 Agent 框架治理等。

2. 中观层:多 Agent 系统中的协作成本

在多 Agent 系统中,优化对象不再只是单个 Agent 的推理过程,而是扩展为多个 Agent 之间的通信、分工与协调。

论文将这一层映射到交易成本理论与委托代理理论。多 Agent 系统通过专业化分工提升任务处理能力,但同时也会引入通信 Token、协调成本、任务分配成本和调度摩擦。

当 Agent 数量不断增加时,系统内部通信成本可能呈超线性增长,甚至抵消专业化分工带来的效率提升。

因此,多 Agent 系统中的关键问题不是“Agent 越多越好”,而是:

如何在专业化收益与协作摩擦之间找到最优平衡?

该部分讨论了 Token 消耗度量、多 Agent 基准测试、拓扑编排、任务调度、通信压缩、跨 Agent 缓存共享与记忆协调等问题。

3. 宏观层:Agent 生态系统中的定价、路由与治理

当大量 Agent 运行在多租户共享平台上时,Token 不再只是单个任务的成本单位,而成为整个 Agent 生态系统中的稀缺推理资源。

论文将这一层映射到机制设计理论与拥挤外部性,重点分析共享平台中的定价、路由、缓存、拥塞与合规治理问题。

在宏观层面,系统总成本可以被拆解为:

即生产成本、延迟成本、交易成本和合规成本。

论文进一步分析了三类关键关系:生产者与消费者之间的定价和拥堵问题,生产者之间的竞争和平台护城河问题,以及监管者与市场之间的外部性治理问题。

一个重要观察是:推理成本下降并不一定意味着总消耗下降。相反,成本降低可能刺激更多需求,导致整体 Token 使用量继续上升。这类似经济学中的杰文斯式动态。

4. 安全维度:安全也是 Token 经济的一部分

论文进一步指出,安全不应被视为 Agent 系统外部附加的合规模块,而应被纳入 Token Economics 的内生约束。

从 Token 生命周期出发,论文总结了五类安全风险:

输入 Token 风险、外部 Token 风险、内部 Token 风险、跨 Agent Token 风险,以及市场级 Token 风险。

在此基础上,论文构建了安全约束下的经济成本模型:

该模型揭示了防御支出与攻击损失期望之间的权衡关系:系统既不能忽视安全,也不能无限增加防御成本。最优安全投资水平取决于防御成本与潜在攻击损失之间的均衡。

四、机会与展望:从静态 Token 计数迈向自适应资源分配

在总结现有研究的基础上,论文进一步提出了 Token Economics 未来发展的六大趋势与五大新兴机会。

六大趋势

第一,高效 Agent 推理与系统设计。
Agent 系统的经济负担正在从一次性训练成本,转向持续性推理成本。

第二,自适应预算感知 Token 分配。
未来 Agent 需要在决策过程中动态评估每一步 Token 消耗的边际收益与边际成本。

第三,记忆作为持久资本。
Agent 的历史经验、长期记忆和任务反馈可以被视为一种资本积累,用于降低未来任务成本。

第四,从文本通信走向表征级通信。
多 Agent 系统可能逐渐减少冗余自然语言通信,转向更紧凑的连续表征或结构化信息交换。

第五,安全开销成为效率边界的一部分。
安全防御不再是外部成本,而会直接重塑 Agent 系统可达到的 Token 效率前沿。

第六,高性价比推理硬件与芯片。
在大规模部署场景下,低成本、高吞吐的推理硬件将成为 Token Economics 的重要基础设施。

五大新兴机会

可微 Token 预算。
将成本信号嵌入模型训练目标,使 Agent 能够端到端学习 Token 分配策略。

标准化基准与成本归因。
建立统一评估协议,明确不同模块、不同决策步骤对 Token 成本的贡献。

实时 Token 市场与动态定价。
引入拍卖机制、现货定价和容量合约等方式,实现推理资源的动态分配。

Agent 级 Token Scaling Law。
研究 Agent 性能与 Token 消耗之间的缩放规律,预测收益饱和点和非单调回报区间。

安全感知 Token 预算。
在不确定环境下,联合分配生产性 Token 与防御性 Token,实现效率与安全之间的平衡。

结语

Token Economics 的提出,意味着 Agent 系统研究正在从单纯关注能力提升,进一步走向对成本、效率、安全和可持续扩展的系统性思考。

推理加速与算法优化不再只是工程选择,而是决定 Agent AI 能否实现商业可行性、系统鲁棒性与长期可扩展性的经济命题。

该工作希望为社区提供一个统一的分析语言和研究路线图,推动下一代高效、安全、可扩展 Agent 系统的设计。

欢迎全球研究者与工程师交流、讨论与共建。

团队

浙江大学计算机学院 × 浙江大学经济学院 × 区块链与数据安全国家重点实验室 × 阿里云

联系

yuxichen@zju.edu.cn
lihuan.cs@zju.edu.cn

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐