阿里：金融工具调用评测基准FinMCP-Bench

大模型任我行

392人浏览 · 2026-04-13 08:00:00

大模型任我行 · 2026-04-13 08:00:00 发布

在这里插入图片描述

📖标题：FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol
🌐来源：arXiv, 2603.24943v1

🌟摘要

本文介绍了FinMCP-Bench，一种通过金融模型上下文协议的工具调用来评估大型语言模型（LLM）解决现实世界金融问题的新基准。FinMCPBench包含613个样本，涵盖10个主要场景和33个子场景，具有真实的和合成的用户查询，以确保多样性和真实性。它包含65个真实的金融MCP和三种类型的样本，FinMCP-Bench提供了一个标准化的、实用的和具有挑战性的测试平台，用于推进金融LLM智能体的研究。FinMCP-Bench是一个面向金融LLM智能体的测试平台，它支持单工具、多工具和多回合，允许跨不同任务复杂度的模型评估。

🛎️文章简介

🔸研究问题：如何系统评估大语言模型在真实复杂金融场景中调用标准化工具协议（MCP）的能力？
🔸主要贡献：论文提出了 FinMCP-Bench，首个涵盖真实与合成数据、支持多工具依赖及多轮对话的金融 MCP 工具调用评测基准。

📝重点思路

🔸数据来源与筛选：基于盈米基金生产环境的 1 万条历史交互日志，经专家严格筛选与脱敏，保留反映真实需求且通过工具成功解决的高质量样本。
🔸基于链的多工具样本构建：利用大模型构建包含 65 个节点的工具依赖图，通过采样工具链并结合上下文示例生成用户查询，再让模型执行生成完整轨迹，以合成高难度的多工具依赖样本。
🔸基于角色扮演的多轮样本构建：设计对话框架，由规划智能体指定用户画像（年龄、收入等）与目标，模拟用户与助手进行多轮交互，生成跨越多个对话回合的复杂任务样本。
🔸双重质量控制机制：采用自动化验证检查工具执行错误，并邀请六位金融领域专家从相关性、逻辑一致性等五个维度对样本进行双盲打分，确保基准的高质量。
🔸提出专用评估指标：摒弃仅关注最终答案的传统方法，定义工具召回率、精确率、F1 值以及考虑工具分组顺序的精确匹配率（EMR），专门衡量工具调用的准确性。

🔎分析总结

🔸模型表现差异显著：Qwen3 系列模型在工具调用的 F1 值和精确匹配率上整体优于 DeepSeek、GPT-OSS 等其他主流模型，但模型参数量大小与性能并非严格正相关。
🔸单工具与多工具表现反差：在单工具任务中模型召回率高但精确率低，常出现过度调用工具的现象；而在多工具任务中，处理并行调用和依赖关系仍是巨大挑战。
🔸多轮对话难度最大：多轮对话样本的各项得分普遍最低，尤其是精确匹配率极低，表明模型在长上下文记忆中维持工具调用逻辑一致性的能力严重不足。
🔸高难度任务激发潜能：对于能力较强的模型，随着任务难度从易到难，其 F1 分数反而上升，说明复杂约束和多工具机会能更好地激发模型的规划与推理能力。