【LLM】Agent的相关Benchmark
AgentBench 评估维度:8个任务环境:操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)和网页浏览(Mind2Web),25 个不同的语言模型(包括基于 API 的模型和开源模型):有效性、上下文长度记忆、多轮对话一致性和代码生成执行等全面评估。通用能力验证优先选 GAIA,快速覆盖多模态与复杂推理;做多智能体系统优化用 MAESTRO;企业 IT 场景直接用 ITBench。
2)需自动化评估流水线时,优先集成 MCPEval(MCP 协议)或 TPS-BENCH(规划专项),减少人工标注成本。
3)生活服务类代理用 VitaBench 的交互环境做闭环测试,重点看跨场景任务的完成率与用户交互自然度
一、SuperCLUE-Agent
SuperCLUE-Agent是一个 Agent智能体中文原生任务能力测评基准,评估方面包括:
工具使用能力(调用API、检索API、规划API等)
任务规划能力(任务分解、自我反思、CoT等)
长短记忆能力(少样本示例学习、长程对话、多文档对话)
二、AgentBench
AgentBench 评估维度:
8个任务环境:操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)和网页浏览(Mind2Web),
25 个不同的语言模型(包括基于 API 的模型和开源模型):有效性、上下文长度记忆、多轮对话一致性和代码生成执行等全面评估。

三、跨系统benchmark:CRAB
论文题目:CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents
论文地址:https://arxiv.org/abs/2407.01511
代码仓库:https://github.com/camel-ai/crab
目前智能体已越来越多地与大型多模态模型 (MLM) 相结合,支持在各种操作系统( 包括网页、桌面电脑和智能手机) 的图形用户界面( GUI) 环境中执行任务。但是目前针对这种智能体性能评估的基准(benchmarks)仍然存在很多局限性,例如构建任务和测试环境的复杂性,评价指标的单一性等。
针对这些问题,本文提出了一个全新的跨环境智能体基准测试框架 CRAB。CRAB 采用了一种基于图的细粒度评估方法,并提供了高效的任务和评估器构建工具。本文的研究团队还基于 CRAB 框架开发了一个跨平台的测试数据集 CRAB Benchmark-v0,其中涵盖了可以在 PC 和智能手机环境中执行的 100 个任务,其中既包含传统的单平台任务,还包含了必须同时操作多个设备才能完成的复杂跨平台任务。
四、SWE-bench
SWE-bench 测试集中的每个示例都是根据 GitHub 上 12 个开源 Python 代码库中一个已解决的 GitHub issue 创建的。每个样本都有一个相关的拉取请求(PR),其中包括解决方案代码和用于验证代码正确性的单元测试。这些单元测试被称为 FAIL_TO_PASS 测试,因为在 PR 中的解决方案代码添加之前它们会失败,添加之后则会通过。每个样本还包括 PASS_TO_PASS 测试,这些测试在 PR 合并前后都会通过,用于检查 PR 是否破坏了代码库中与问题无关的其他功能。
在 SWE-bench 中,AI 智能体会获得来自 GitHub issue 的原始文本,即问题陈述,并可以访问代码库。给定这些信息,智能体必须编辑代码库中的文件以解决问题。
AI 智能体给出的编辑将通过运行 FAIL_TO_PASS 和 PASS_TO_PASS 测试来评估。如果 FAIL_TO_PASS 测试通过,这意味着编辑解决了问题。如果 PASS_TO_PASS 测试通过,则意味着编辑没有破坏代码库中无关的部分。要完全解决原始的 GitHub 问题,两组测试都必须通过。
五、GAIA
《GAIA: A Benchmark for General AI Assistants》是一个面向通用AI助手能力的基准评测体系。
1.组成:里面有466个精心设计的问题,其中分为三个级别,Lv.1、Lv.2、Lv.3。
(a) Level 1 :通常不需要工具,或者最多只需要一个工具,但不超过5个步骤。
(b) Level 2:通常涉及更多步骤,大约在5到10之间,需要结合不同的工具。
© Level 3 :是一个近乎完美的总助理的问题,要求采取任意长的行动序列,使用任意数量的工具,并进入整个世界。
2. 和传统榜单区别:传统的测试一般都是数学(AIME)或者一些专业知识问答、编程等等,但是GAIA测试,里面很多都是概念简单,但是需要多步骤解决的实际问题。
3. 如何评估:使用GAIA,只需向人工智能助理给出zero-shot prompt。
更多推荐


所有评论(0)