大型语言模型(LLM)评估榜单提供了对不同模型性能的标准化比较,涵盖了从通用能力到特定领域应用的多个方面。本文主要从通用大模型,垂直领域的医学、法律和金融领域的评估榜单。这些榜单根据最新的模型进行评估,有助于开发者了解模型的优势和局限性,推动语言模型的发展和优化。

通用大模型榜单

  1. Open LLM Leaderboard
    =======================

Hugging Face 旨在展示和比较不同大型语言模型(LLMs)的性能,特别是那些可以公开访问的模型。模型将根据一系列标准进行评估,包括但不限于准确性、效率、可解释性和公平性。在 6 个关键基准上评估模型,这是一个统一的框架,用于在大量不同的评估任务上测试生成语言模型。

2.FlagEval

FlagEval由智源研究院将联合多个高校团队打造,是一种采用“能力一任务一指标"三维评测框架的大模型评测平台,旨在提供全面、细致的评测结果。该平台已提供了30多种能力、5种任务和4大类指标,共600多个维度的全面评测,任务维度包括22个主客观评测数据集和84433道题目。

3.OpenCompass

OpenCompass是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,该算法库的主要评估目标是大型语言模型。以大语言模型为例,介绍具体的评估模型类型。

基础模型:通常通过自监督方式对海量文本数据进行训练而获得(例如OpenAI的GPT-3、Meta的LLaMA)。这些模型通常具有强大的文本延续功能。

聊天模型:通常建立在基础模型的基础上,并通过指令微调或人类偏好调整进行完善。这些模型可以理解人类指令并具有很强的会话能力。

OpenCompass从通用人工智能的角度出发,融合前沿学术进展和行业最佳实践,提出适合实际应用的评估体系。OpenCompass的能力维度涵盖通用能力和特殊功能。

4.SuperCLUE

中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况

SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新。

5.C-Eval

C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。

榜单分成2个:

  • • 公开访问的模型 – 这些模型有公开权重或者API,用户可以自行检查验证它们的效果;

  • • 受限访问的模型: 这些模型暂时没有对公众开放。

6.MMLU

MMLU 由Dan Hendrycks和一组研究人员于 2020 年发布。

MMLU 以庞大的多任务测试集为基础,其中包含来自各个知识分支的多项选择题。测试横跨人文、社会科学、硬科学等重要领域;总共57个任务。这 57 项任务总共分布在 15,908 个问题上,这些问题被分为几个镜头开发集、一个验证集和一个测试集。

  • • 少样本开发集每个主题有 5 个问题。

  • • 验证集可用于选择超参数,由 1540 个问题组成。

  • • 测试集有 14079 个问题。每个科目至少包含100 个测试示例

7.Chatbot Arena

Chatbot Arena 是一个开源平台,用于通过人类偏好评估人工智能,由加州大学伯克利分校SkyLab和LMSYS的研究人员开发。

该平台拥有超过 1,000,000 名用户投票,使用 Bradley-Terry 模型生成实时排行榜,对最佳人工智能聊天机器人进行排名。

8.HELM

HELM大语言模型评价模型是斯坦福的基础模型研究中心发布的来提高语言模型的透明度。

采用多指标方法:在可能的情况下,为 16 个核心场景中的每一个测量 7 个指标(准确性、校准、鲁棒性、公平性、偏差、毒性和效率)。还根据26个目标场景进行7个有针对性的评估,以分析特定方面(例如推理、虚假信息)。

医学大模型榜单

1.PubMedQA

PubMedQA 有 1k 个专家标记、61.2k 个未标记和 211.3k 个人工生成的 QA 实例。

2.MedBench

MedBench致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台。我们基于医学权威标准,不断更新维护高质量的医学数据集,全方位多维度量化模型在各个医学维度的能力。MedBench提出了五大评测维度:医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理。

法律大模型榜单:

LawBench

LawBench 将法律认知细分为三个认知维度,涵盖 20 项法律任务:

  • • 法律知识记忆:大型语言模型能否在其参数中记忆必要的法律概念、术语、文章和事实。

  • • 法律知识理解:大语言模型能否理解法律文本中的实体、事件和关系,从而理解法律文本的含义和内涵。

  • • 法律知识应用:大型语言模型能否正确利用其法律知识,对其进行推理以解决下游应用中的实际法律任务。每项法律任务包含 500 个问题。分数是模型在20 种不同任务类型中获得的平均值

金融大模型榜单:

CFBenchmark

"书生•济世"金融评测基准(CFBenchmark)主要包含以下几方面 金融自然语言处理:主要关注模型对金融文本的理解和生成能力,包含三个方面的任务:金融实体识 别、金融文本分类和金融内容生成

  • • 金融场景计算:侧重于模型在特定金融场景下的计算和推理能力,

  • • 金融分析与解读任务:检验模型在理解复杂金融报告、预测市场趋势和辅助决策制定方面的能力

  • • 金融合规检查:评估模型潜在的合规风险

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。

路线图很大就不一一展示了 (文末领取)
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告(持续更新)👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐