【LLM】Agent的相关Benchmark

AgentBench 评估维度：8个任务环境：操作系统（OS）、数据库（DB）、知识图谱（KG）、卡牌对战（DCG）、情景猜谜（LTP）、家居（Alfworld）、网络购物（WebShop）和网页浏览（Mind2Web），25 个不同的语言模型（包括基于 API 的模型和开源模型）：有效性、上下文长度记忆、多轮对话一致性和代码生成执行等全面评估。![在这里插入图片描述](https://i-blo

山顶夕景

2496人浏览 · 2024-11-13 18:55:45

山顶夕景 · 2024-11-13 18:55:45 发布

note

agent评测选型与使用建议：
1）通用能力验证优先选 GAIA，快速覆盖多模态与复杂推理；做多智能体系统优化用 MAESTRO；企业 IT 场景直接用 ITBench。
2）需自动化评估流水线时，优先集成 MCPEval（MCP 协议）或 TPS-BENCH（规划专项），减少人工标注成本。
3）生活服务类代理用 VitaBench 的交互环境做闭环测试，重点看跨场景任务的完成率与用户交互自然度

一、SuperCLUE-Agent

SuperCLUE-Agent是一个 Agent智能体中文原生任务能力测评基准，评估方面包括：
工具使用能力（调用API、检索API、规划API等）
任务规划能力（任务分解、自我反思、CoT等）
长短记忆能力（少样本示例学习、长程对话、多文档对话）
在这里插入图片描述

二、AgentBench

AgentBench 评估维度：
8个任务环境：操作系统（OS）、数据库（DB）、知识图谱（KG）、卡牌对战（DCG）、情景猜谜（LTP）、家居（Alfworld）、网络购物（WebShop）和网页浏览（Mind2Web），
25 个不同的语言模型（包括基于 API 的模型和开源模型）：有效性、上下文长度记忆、多轮对话一致性和代码生成执行等全面评估。

在这里插入图片描述

三、跨系统benchmark：CRAB

论文题目：CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents
论文地址：https://arxiv.org/abs/2407.01511
代码仓库：https://github.com/camel-ai/crab

目前智能体已越来越多地与大型多模态模型 (MLM) 相结合，支持在各种操作系统（包括网页、桌面电脑和智能手机）的图形用户界面（ GUI）环境中执行任务。但是目前针对这种智能体性能评估的基准（benchmarks）仍然存在很多局限性，例如构建任务和测试环境的复杂性，评价指标的单一性等。

针对这些问题，本文提出了一个全新的跨环境智能体基准测试框架 CRAB。CRAB 采用了一种基于图的细粒度评估方法，并提供了高效的任务和评估器构建工具。本文的研究团队还基于 CRAB 框架开发了一个跨平台的测试数据集 CRAB Benchmark-v0，其中涵盖了可以在 PC 和智能手机环境中执行的 100 个任务，其中既包含传统的单平台任务，还包含了必须同时操作多个设备才能完成的复杂跨平台任务。

四、SWE-bench

SWE-bench 测试集中的每个示例都是根据 GitHub 上 12 个开源 Python 代码库中一个已解决的 GitHub issue 创建的。每个样本都有一个相关的拉取请求（PR），其中包括解决方案代码和用于验证代码正确性的单元测试。这些单元测试被称为 FAIL_TO_PASS 测试，因为在 PR 中的解决方案代码添加之前它们会失败，添加之后则会通过。每个样本还包括 PASS_TO_PASS 测试，这些测试在 PR 合并前后都会通过，用于检查 PR 是否破坏了代码库中与问题无关的其他功能。

在 SWE-bench 中，AI 智能体会获得来自 GitHub issue 的原始文本，即问题陈述，并可以访问代码库。给定这些信息，智能体必须编辑代码库中的文件以解决问题。

AI 智能体给出的编辑将通过运行 FAIL_TO_PASS 和 PASS_TO_PASS 测试来评估。如果 FAIL_TO_PASS 测试通过，这意味着编辑解决了问题。如果 PASS_TO_PASS 测试通过，则意味着编辑没有破坏代码库中无关的部分。要完全解决原始的 GitHub 问题，两组测试都必须通过。

五、GAIA

《GAIA: A Benchmark for General AI Assistants》是一个面向通用AI助手能力的基准评测体系。
1.组成：里面有466个精心设计的问题，其中分为三个级别，Lv.1、Lv.2、Lv.3。
(a) Level 1 ：通常不需要工具，或者最多只需要一个工具，但不超过5个步骤。
(b) Level 2：通常涉及更多步骤，大约在5到10之间，需要结合不同的工具。
© Level 3 ：是一个近乎完美的总助理的问题，要求采取任意长的行动序列，使用任意数量的工具，并进入整个世界。
2. 和传统榜单区别：传统的测试一般都是数学（AIME）或者一些专业知识问答、编程等等，但是GAIA测试，里面很多都是概念简单，但是需要多步骤解决的实际问题。
3. 如何评估：使用GAIA，只需向人工智能助理给出zero-shot prompt。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

8种封装的1700V国产碳化硅(SiC)功率模块产品介绍及应用

MCP技术社区

（一篇入门）汽车电子电器之电机MCU控制器四

MCP技术社区

OpenCV C++ 入门实战：从基础操作到类封装全解析

Mat数据结构、图像读写、颜色空间转换、像素操作、算术运算和轨迹栏交互，以及面向对象封装思想。图像处理：学习滤波（高斯滤波、中值滤波）、边缘检测（Canny、Sobel）、形态学操作（腐蚀、膨胀）。目标检测：掌握轮廓提取（）、特征匹配（）、Haar 级联分类器。视频处理：使用读取视频，对帧进行实时处理。性能优化：学习多线程、GPU 加速（cv::cuda模块），提升处理速度。通过持续实践，可逐步掌