GAOKAO-Bench:基于高考题的大模型评测框架

一、项目基础介绍

GAOKAO-Bench 是由 OpenLMLab 开发的一个开源项目,主要使用 Python 编程语言。该项目构建了一个以中国高考题目为数据集的评测框架,用于评估大型语言模型的语言理解能力、逻辑推理能力等多方面能力。

二、项目核心功能

项目的核心功能是利用 GAOKAO(中国高考)题目作为数据集,对大型语言模型进行全方位、准确的评估。项目收集了2010-2022年全国高考卷的题目,包括1781道客观题和1030道主观题,构建起评测框架的数据部分。主要功能包括:

  • 提供了一个标准化的评测环境,使得不同模型之间的性能比较更加公平和准确。
  • 包含了客观数据集和主观数据集,能够全面评估模型的多种能力。
  • 提供了 zero-shot 方式的测试,以及基于规则的答案抽取方式和人工评阅方式。

三、项目最近更新的功能

  • GAOKAO-MM:基于中国高考题的多模态数据集,用于测评多模态模型的感知、理解、知识、推理能力。
  • GAOKAO-Bench-Updates:将中国2023年及之后的高考选择题作为数据集,对 GAOKAO-Bench 的补充。

以上更新为项目增加了多模态数据集的支持,以及对最新高考题目的引入,使得评测框架更加完善和现代化。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐