MCP安全仅为冰山一角?总览智能体通信安全:通信协议、风险剖析、防御对策与前沿挑战
大型语言模型(LLM)是一种基于海量文本数据训练而成的新型人工智能(AI)模型,旨在理解和生成人类语言,其在诸多领域展现出了前所未有的能力。下图展示了一个典型的LLM驱动智能体架构。与主要作为聊天机器人且不具备特定领域专业能力的LLM不同,智能体被设计用于自动协助人类完成专业化任务。为此,智能体配备了多个模块以实现全能化:感知、记忆、工具、推理与行动。智能体内部架构高自主性:能够自主进行任务分解、

论文链接:https://arxiv.org/abs/2506.19676
近年来,由大语言模型(LLM)驱动的智能体(agent)展现出前所未有的智能和适应性,正在迅速改变人类的生产和生活方式。当前,智能体正在面临新一轮的演化:他们不再像传统LLM那样孤立运作,而是开始寻求与各种外部实体(如其他智能体和工具)进行通信协作,从而完成更复杂的任务。在这种背景下,一项任务通常需要多个智能体的协作,这些智能体可能分布于全球互联网中。因此,智能体通信成为未来人工智能生态的基础之一。它使得智能体能够发现具备特定能力的其他智能体、获取外部知识、分配任务并参与其他交互活动。在这种趋势下,许多组织已开始参与相关通信协议的设计。例如,2024年11月,Anthropic公司提出了MCP(Model Context Protocol)协议,允许智能体获取外部资源与工具;2025年4月,Google提出A2A(Agent-to-Agent Protocol),支持智能体之间的交互协作。这些协议迅速获得了业界与高校的广泛关注。然而,智能体通信这一新兴领域暴露了重大安全隐患,允许攻击者以较小的成本对用户隐私与系统造成危害,目前针对智能体通信安全的系统性研究仍处于初步阶段。

传统互联网与智能体互联网(IoA)的对比。
为了弥补这一缺陷,该论文系统性地对智能体通信的相关协议、安全问题、以及防御措施进行了总结与讨论。文章面向的对象为从事智能体研究的研究人员以及准备开启其AI学术生涯的初学者。文章的主要贡献如下:
-
对智能体通信进行了全面阐述。具体地,解释了当前智能体生态系统为何需要通信(即单个智能体面临的困境),首次给出了智能体通信的定义,并提出了一种基于通信对象类型的新型分类原则,将智能体通信分为:a)用户-智能体交互、b)智能体-智能体通信、c)智能体-环境通信。该分类方法可涵盖智能体通信的整个生命周期,有助于相关研究的归类。
-
全面阐述了与不同智能体通信阶段相关的现有协议,包括新提出的和以往被其他综述忽视的协议。此外,我们根据协议的架构对其进行分类,并总结相应特点。例如,针对智能体-智能体通信过程的特点,我们将相关协议划分为基于CS的架构、基于P2P的架构、以及混合架构。这种组织方式能让任何对该领域感兴趣的研究人员快速建立对智能体通信的初步且全面的理解。
-
本综述深入分析了每个智能体通信阶段已发现的攻击和尚未揭示的潜在风险。我们既讨论了恶意智能体对良性通信对象(即用户和环境)的攻击,也讨论了恶意通信对象(即用户和环境)对良性智能体的攻击,全面覆盖了整个智能体通信生命周期。然后,我们详细概述了可能的防御对策,这些对策有助于智能体通信安全工作的部署。
-
论文使用目前最流行的智能体通信协议 MCP 和 A2A 进行了实验,成功对 MCP 和 A2A 发起了多种攻击,表明攻击者只需付出很少的成本就能造成严重损害。该实验有助于读者更好地理解智能体通信带来的新攻击风险。
一、背景介绍:大语言模型驱动的AI智能体
大型语言模型(LLM)是一种基于海量文本数据训练而成的新型人工智能(AI)模型,旨在理解和生成人类语言,其在诸多领域展现出了前所未有的能力。下图展示了一个典型的LLM驱动智能体架构。与主要作为聊天机器人且不具备特定领域专业能力的LLM不同,智能体被设计用于自动协助人类完成专业化任务。为此,智能体配备了多个模块以实现全能化:感知、记忆、工具、推理与行动。

智能体内部架构
智能体相比传统LLM展现出多方面优势:
-
高自主性:能够自主进行任务分解、策略调整和外部工具调用
-
灵活的多模态交互:支持文本、图片、语音等多种交互方式
-
丰富的工具调用:可独立选择、组合和动态调整多种工具
-
更好的幻觉抑制:通过检索增强生成等技术减少错误率
-
动态适应性:能够实时适应环境和信息变化
-
更强的协作能力:支持多智能体协作完成任务

智能体与LLM的比较
然而,智能体也存在一个主要弱点:安全性较差。由于智能体被赋予了调用工具的能力,它们可能对现实世界造成实质性损害,包括恶意/错误操作机器、污染数据库和瘫痪系统等。
二、智能体通信概览:定义与分类
我们首次对智能体通信进行了定义:
当代理完成任务时,它会通过标准化的协议框架,与多样化的元素进行多模态信息交换和动态行为协调,最终将结果返回给用户,而这一过程中的所有通信行为都属于代理通信。
根据通信对象的不同,智能体通信可分为三类:
-
用户-智能体交互定义:用户与智能体之间的指令接收和结果反馈过程
-
智能体-智能体通信定义:两个或多个智能体通过标准化协作协议,为协同完成用户分配的任务而进行协商、任务分解、子任务分配和结果聚合的通信过程。
-
智能体-环境通信定义:智能体通过标准化协议与环境实体(例如工具、知识库以及任何其他有助于任务执行的外部资源)进行交互,以完成用户任务的通信过程。

智能体通信完整周期、分类、以及风险总结
三、智能体通信协议分析
用户-智能体交互协议
-
PXP协议:专注于构建人类专家与智能体在数据分析任务中的交互系统
-
空间群体协议:解决机器人系统中的分布式定位问题
-
AG-UI:基于客户端-服务器架构实现用户与智能体的通信

AG-UI架构
智能体-智能体通信协议
本文将智能体间通信过程划分为两个阶段:智能体发现阶段与智能体通信阶段。第一阶段是智能体发现符合能力要求的兴趣对象的过程,第二阶段则是任务分配与执行的过程。根据分析,现有协议在第二阶段差异有限,因此本文以第一阶段作为分类标准对现有通信协议进行划分。基于此,现有协议可分为四类:基于集中式服务的、基于点对点的、混合型的以及其他类(未明确展示智能体发现机制的设计方案)。

agent-agent communication分类

客户端-服务器(CS)通信
-
ACP-IBM:IBM提出的智能体通信协议

ACP-IBM协议架构
-
ACP-AGNTCY:支持灵活的状态管理和线程机制
-
ACP-AgentUnion:基于现有域名系统的去中心化协议
点对点(P2P)通信
-
ACN:基于分布式哈希表的去中心化通信基础设施
-
ANP:采用W3C兼容的去中心化标识符
-
LOKA:构建可信赖和符合伦理的智能体生态系统
混合通信
-
LMOS:支持集中式和去中心化发现方法
-
A2A:谷歌提出的支持三种不同智能体发现机制
其他协议
-
Agora:根据通信频率动态切换通信模式
-
AITP:支持结构化互操作通信
-
Agent Protocol:基于Thread和Run的状态管理
智能体-环境通信协议
现代智能体通常依赖一系列结构化协议来调用外部工具、访问API并完成组合任务。这些协议在自然语言推理与计算执行之间起到桥梁作用。尽管交互机制多种多样,它们往往遵循分层架构:从统一资源协议到中间件网关,再到特定语言的功能描述与工具元数据声明。
-
MCP(模型上下文协议) :提供统一的、模式无关的通信协议

MCP架构
-
API Bridge Agent:连接LLM原生意图与下游MCP或OpenAPI兼容服务
-
函数调用机制:包括OpenAI函数调用和LangChain工具调用
-
工具元数据声明:如agents.json标准化元数据格式
四、智能体通信安全风险分析
用户-智能体交互风险
用户与智能体的交互使智能体能够处理多模态输入,包括文本、图像、音频及其组合。由于这一过程需要直接应对来自不同用户的不确定性输入,其安全风险尤为严峻。

恶意用户对良性智能体的攻击:
-
基于文本的攻击:提示注入和越狱攻击
-
多模态攻击:基于图像和音频的攻击
-
隐私泄露:通过精心设计的对抗查询提取敏感信息
-
拒绝服务(DoS):通过资源耗尽或诱导过度思考攻击
被攻陷智能体对良性用户的危害:
-
侵犯用户隐私:泄露个人可识别信息和行为心理特征
-
心理和社会操纵:塑造用户信念和进行社交工程
-
执行恶意有害任务:经济操纵和恶意指导
智能体-智能体通信风险
本文将智能体间通信架构分为两大类:基于CS(客户端-服务器)架构和基于P2P(点对点)架构。相应地,其安全风险也呈现多元化特征:CS架构使集中式智能体服务器承受沉重负担,如注册污染和SEO投毒攻击;P2P架构则因缺乏有效的集中式管理机制,面临非收敛性和中间人攻击等问题。此外,两类架构都面临智能体欺骗、霸凌攻击和隐私泄露等共性风险。

CS架构特有风险:
-
注册污染:恶意注册模仿合法智能体的标识符
-
描述毒化:篡改智能体能力描述
-
任务洪泛:提交大量计算密集型任务
-
SEO毒化:操纵智能体排名
P2P架构特有风险:
-
不收敛:任务执行陷入循环
-
中间人攻击(MITM):篡改通信内容
通用风险:
-
智能体欺骗:伪装成受信任智能体
-
智能体利用/木马:通过被攻陷智能体发起攻击
-
智能体欺凌:持续干扰目标智能体
-
隐私泄露:缺乏权限边界导致信息扩散
-
责任规避:多智能体故障难以归责
-
拒绝服务:任务过载耗尽系统资源
智能体-环境通信风险
随着基于大语言模型的智能体能力持续进化,其与外部世界的交互行为正变得日益复杂且强大。值得注意的是,记忆系统和外部工具调用的集成引入了一系列全新的攻击面,可能被攻击者恶意利用。本本重点剖析这两大模块特有的安全风险:负责上下文信息存储与检索的记忆模块,以及通过对接外部系统/服务(如函数调用)使智能体执行操作的工具模块。

恶意环境对良性智能体的攻击:
-
内存相关风险:内存注入和毒化
-
知识相关风险:通过数据毒化破坏知识库
-
工具相关风险:恶意工具和工具选择操纵
被攻陷智能体对良性环境的危害:
-
破坏内存和知识:传播篡改信息
-
滥用工具:数据外泄和系统服务中断
-
现实世界损害:数字环境污染和物理环境破坏
五、智能体通信防御措施展望
用户-智能体交互防御
本文将现有风险划分为恶意用户引发的风险和受损智能体导致的风险,并重点探讨了针对恶意用户风险的防御对策。总体而言,用户-智能体交互对于连接人类意图与智能体执行至关重要,但其安全性仍需要长期深入研究。
-
输入输出过滤:语义级安全审查
-
外部源评估:白名单和沙箱机制
-
图像净化:随机调整和扩散模型重建
-
音频净化:重新采样和带通滤波
-
跨模态一致性验证:检测模态间语义冲突
-
数据最小化和匿名化:分层数据访问控制
-
隐私泄露提示检测:语义特征提取和意图分类
-
资源管理和异常检测:实时监控和自适应调整
智能体-智能体通信防御
本文将重点探讨针对受损智能体所引发安全风险的防御对策(这些风险不仅威胁良性智能体,还危及普通用户及运行环境)。通过这项研究推动该领域更深入的探讨,并为未来智能体通信系统的设计与部署提供有益参考。
CS架构防御:
-
注册验证和监控:零信任认证和IP限制
-
能力验证:基准测试和哈希值校验
-
负载均衡:动态调整和速率限制
-
反操纵优化:对抗训练和随机因子
P2P架构防御:
-
任务生命周期监控:强制终止非收敛通信
-
端到端加密增强:及时更新版本和路径冗余
通用防御:
-
身份认证:W3C兼容的去中心化身份验证
-
智能体行为审计:日志记录和责任量化
-
访问控制:权限标签和证明机制
-
多源通道隔离:避免原始消息拼接
-
攻击建模和测试:生成攻击向量发现漏洞
-
智能体编排:优化任务调度和提示生成
智能体-环境通信防御
随着基于大语言模型的智能体日益复杂化和自主化,其安全防护策略也需要同等水平的精密度提升。当这些系统越来越依赖记忆模块、检索增强和交互式工具链时,相应的攻击面已扩展到包括上下文传播、规划逻辑和执行流在内的多个层面。要应对这些漏洞,需要构建一个多层次、可组合的防御框架。
内存和知识相关防御:
-
嵌入空间筛查:聚类检测异常向量
-
共识过滤:多数投票策略
-
执行监控:持续对齐运行时动作
-
系统门控内存保留:严格内容净化
-
统一内容来源和信任框架:清晰来源元数据
工具相关防御:
-
协议级保障:静态检查和实时验证
-
工具调用和执行控制:沙箱和最小权限
-
智能体编排监控:验证智能体计划和约束
-
系统级调解和链式控制:安全规划器和动态验证器

智能体通信相关攻击与防御措施的对应关系
六、实验案例研究:MCP和A2A
本文通过针对最流行的智能体通信协议MCP和A2A进行实验,展示了智能体通信带来的新型攻击面:
-
恶意代码执行:利用MCP在系统上直接开启未认证的Bash Shell服务

-
检索智能体欺骗:在公开文档中嵌入恶意命令诱导智能体执行

-
工具毒化:在工具描述中添加隐蔽的恶意指令

-
命令注入:直接操纵用户系统而不触发警报

-
智能体选择操纵:通过修改智能体卡描述提高恶意智能体被选中的优先级

七、未来研究方向与讨论
技术层面
-
高效轻量级恶意输入过滤机制
本文认为用户输入仍是智能体生态中最大规模的攻击载体,特别是考虑到输入形式正变得更加开放(不再限于用户指令,还包含环境反馈)、多模态化且语义复杂化。此外,未来智能体生态将更注重运行效能,而大语言模型本身存在计算延迟特性。这种双重需求对防御系统提出了极高要求。为此,必须建立轻量级但高效的恶意输入过滤机制:既需要采用AI模型压缩技术(如DeepSeek)精简防御模型,还需结合可编程线速设备(如可编程交换机和智能网卡)的算力卸载能力,以加速输入过滤流程。
-
去中心化通信存证体系
在金融等特定领域,记录智能体通信过程与内容对审计潜在犯罪和错误至关重要。考虑到安全性与可靠性,此类存储不能依赖单一节点,必须确保完整性与效率。基于CS架构的通信可通过企业网络内的分布式存储链实现本地化存证,而P2P架构(尤其是跨国智能体)的去中心化存证则需从零构建,建议采用区块链等技术管理历史通信记录。
-
实时通信监管框架
尽管事后审计不可或缺,但实时监管能在攻击发生时最大限度降低损失。CS架构凭借集中式监控优势更易实现全局监管,而P2P架构需设计集体监督机制。我们认为这是构建可信AI生态的关键功能。
-
跨协议防御架构
现有协议虽部分解决了异构性问题,但缺乏无缝协作能力。例如跨智能体(A2A)与多智能体协作平台(MCP)仍难以实现统一身份标识,易导致系统性能下降与协调错误。未来应构建类似IPv4的通用架构,实现不同协议与智能体的无缝发现和通信。
-
智能体行为判定与追责机制
目前难以定位智能体行为的责任归属。例如任务执行失败时,无法判断是哪个环节导致结果偏差(无论恶意或无意)。这需要建立过程偏差量化评估原则,该机制将显著解决当前AI生态的迫切需求。
-
效能与精度的权衡设计:从信息论视角分析,智能体通信存在两种模式:
-
高令牌通信:丰富语义能提升多智能体协作精度,但会增加计算成本、延迟和攻击面(如提示注入)
-
低令牌通信:结构化消息(如JSON)提升效率,但缺乏应对突发场景的灵活性未来协议需根据任务复杂度动态调整冗余度,例如探索阶段采用高令牌通信,执行阶段切换为低令牌模式。
-
-
自组织智能体网络演进方向
随着智能体物联网(IoA)规模扩大,未来通信将向自组织网络演进:智能体自主发现伙伴、评估能力、协商协作并动态组队。该范式具有高度可扩展性和鲁棒性,特别适合动态不确定环境。
法律与监管维度
除技术层面外,本文发现当前智能体相关法律法规存在严重缺失,这些空白无法仅通过技术手段弥补。因此呼吁从以下方面加速完善立法框架:
-
责任主体界定机制:当商用智能体造成他人财产损失或人身伤害时,难以确定最终责任主体。例如:
-
智能机器人在执行任务时造成财产损害,开发者、用户或企业三方的法律责任缺乏量化标准
-
多智能体协同作业场景(如自动驾驶车队编队行驶发生事故),缺乏对所属企业及相关主体责任划分的法律规定
-
-
知识产权保护体系当前大量开源大模型作为智能体"大脑"被广泛应用,但存在以下法律真空:
-
即使开源模型,开发者仍限制其应用范围(如要求衍生智能体必须开源),但缺乏有效法律保障
-
智能体抄袭认定标准模糊,且抄袭程度量化标准缺失(如50%或90%相似度如何界定)亟需建立配套知识产权保护法规
-
-
跨境监管协作框架:智能体通信具有跨国特性,但存在监管困境:
-
A国训练的智能体可能被B国人员用于违法活动,司法管辖权难以界定
-
缺乏国际统一的监管标准与司法协作机制,易导致跨境安全治理失效。相关立法(如智能体犯罪界定)严重滞后于技术发展,例如:如何定义智能体盗窃与非法挪用、自动驾驶智能体的事故责任认定标准
-
内容来源:IF 实验室
更多推荐



所有评论(0)