GAOKAO-Bench：基于高考题的大模型评测框架

GAOKAO-Bench：基于高考题的大模型评测框架GAOKAO-BenchGAOKAO-Bench - 一个以中国高考题目为数据集，用于评估大型模型语言理解能力和逻辑推理能力的框架。项目地址: https://gitcod...

时煜青

772人浏览 · 2025-01-08 14:22:47

时煜青 · 2025-01-08 14:22:47 发布

GAOKAO-Bench：基于高考题的大模型评测框架

一、项目基础介绍

GAOKAO-Bench 是由 OpenLMLab 开发的一个开源项目，主要使用 Python 编程语言。该项目构建了一个以中国高考题目为数据集的评测框架，用于评估大型语言模型的语言理解能力、逻辑推理能力等多方面能力。

二、项目核心功能

项目的核心功能是利用 GAOKAO（中国高考）题目作为数据集，对大型语言模型进行全方位、准确的评估。项目收集了2010-2022年全国高考卷的题目，包括1781道客观题和1030道主观题，构建起评测框架的数据部分。主要功能包括：

提供了一个标准化的评测环境，使得不同模型之间的性能比较更加公平和准确。
包含了客观数据集和主观数据集，能够全面评估模型的多种能力。
提供了 zero-shot 方式的测试，以及基于规则的答案抽取方式和人工评阅方式。

三、项目最近更新的功能

GAOKAO-MM：基于中国高考题的多模态数据集，用于测评多模态模型的感知、理解、知识、推理能力。
GAOKAO-Bench-Updates：将中国2023年及之后的高考选择题作为数据集，对 GAOKAO-Bench 的补充。

以上更新为项目增加了多模态数据集的支持，以及对最新高考题目的引入，使得评测框架更加完善和现代化。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

8种封装的1700V国产碳化硅(SiC)功率模块产品介绍及应用

MCP技术社区

（一篇入门）汽车电子电器之电机MCU控制器四

MCP技术社区

基于Echarts的甘特图实现与封装实战

Echarts（Enterprise Charts）是由百度开源的一款功能强大、高度可定制的JavaScript数据可视化库，广泛应用于各类企业级Web应用中。其核心设计理念是“以数据驱动视图”，通过声明式配置即可实现复杂图表的渲染与交互。在现代前端工程化背景下，Echarts不仅支持静态图表展示，更具备动态更新、大数据量处理和跨平台兼容等高级能力，成为构建高性能数据看板、实时监控系统和项目管理工