在2023年3月,我们发表了大语言模型综述文章《A Survey of Large Language Models》。这篇综述文章已经更新到第13个版本,包含了83页的正文内容,并收录了900余篇参考文献。该综述文章旨在系统地梳理大语言模型的研究进展与核心技术,讨论了大量的相关工作。自大语言模型综述的预印本上线以来,受到了不少读者的关注。

图片

自英文综述文章上线后,陆续有读者询问是否有对应的中文版本。为此,我们于2023年8月发布了该综述的中文翻译版。为了更好地提供大模型技术的中文参考资料,我们于2023年12月底继续启动了中文书的编写工作,并且于近日完成初稿。与英文综述文章的定位不同,中文版书籍更注重为大模型技术的入门读者提供讲解,为此我们在内容上进行了大幅度的更新与重组,力图展现一个整体的大模型技术框架和路线图。本书适用于具有深度学习基础的高年级本科生以及低年级研究生使用,可以作为一本入门级的技术书籍。

中文书项目链接:

图片

2022年底,ChatGPT 震撼上线,大语言模型技术迅速“席卷”了整个社会,人工智能技术因此迎来了一次重要进展。面对大语言模型的强大性能,我们不禁要问:支撑这些模型的背后技术究竟是什么?这一问题无疑成为了众多科研人员的思考焦点。必须指出的是,大模型技术并不是一蹴而就,其发展历程中先后经历了统计语言模型、神经网络语言模型、预训练语言模型等多个发展阶段,每一步的发展都凝结了众多科研工作者的心血与成果。作为大语言模型技术的重要推动者,OpenAI公司在过去深入探索了与其相关的大量技术细节,并最终推出了GPT系列模型,引领了本次技术变革。

然而,OpenAI 团队自GPT-3开始,就很少在公开的材料中提及相关技术细节,很多技术报告主要是介绍评测相关的内容。到目前为止,关于GPT系列模型的核心技术仍然难以完全解密。目前,学术界面临的重大挑战是真正有充足资源去充分探索大语言模型训练的团队少之又少,因此导致了第一手经验匮乏,难以直接开展相关研究。大模型训练涉及众多训练的细节,这些细节很多时候无法从已有科研论文中直接获取。由于其参数众多、组件复杂、训练过程也比较复杂,早期的实验探索如果不引入任何先验知识,可能会导致指数级增长的实验数量。这使得掌握大模型技术的经验变得尤为困难,更不用说从零开始探索相关科研问题,极大限制了学术界在此次人工浪潮中所起到的作用。目前,能力较强的大语言模型基本都源自工业界,这一趋势随着时间的推移可能会变得更加明显。从第一手经验中“Know-How”,对于科研人员来说非常重要,只有接触到技术核心,才能真正理解哪些问题是有意义的,并找到解决方案。

令人欣喜的是,无论是在学术界还是工业界,人们都逐渐认识到了“开放”的重要性,能够看到越来越多的公开的基础模型、技术代码以及学术论文,有力地推动了大模型技术的“透明化”。只有通过开放和共享,才能汇聚全人类的智慧,共同推进人工智能技术的发展。实际上,根据现有公开的资料,大模型技术也是“有章可循”的,如整体训练流程、数据清洗方法、指令微调技术、人类偏好对齐算法等。根据这些技术,在算力资源支持下,研发人员已经能够较为顺利地完成大模型的整体训练流程,并取得不错的模型效果。随着更多核心技术的揭示和开放,大模型技术的“透明化”将进一步提高。

总之,大模型技术正处于快速发展阶段,基础原理亟待探索、关键技术亟待改善。对于科研人员而言,大模型研究工作充满了想象空间,令人为之神往。随着技术的不断进步与共享开放,我们有理由相信,未来人工智能技术将取得更大的进展,将在更多领域带来更为深远的影响。本书旨在为读者提供关于大模型技术的全面了解,包括其基础原理、关键技术和应用前景。通过深入研究和实践,我们可以不断探索和改进大模型技术,为人工智能领域的发展做出贡献。我们希望读者通过阅读本书,能够深入了解大模型技术的现状和未来趋势,为自己的研究和实践提供指导和启发。让我们携手努力,共同推动人工智能技术的发展,为建立更智能、更可持续的未来做出贡献。

全书章节组织:

一、背景与基础知识

第一章 引言(大模型发展历程、重要技术概览)

第二章 基础介绍(Scaling Law、GPT系列模型发展历程)

第三章 大模型资源(开源模型、数据、代码库)

二、预训练

第四章 数据准备(数据收集、清洗、配比、课程方法)

第五章 模型架构(Transformer 结构、大模型主流架构、细节改进)

第六章 模型预训练(预训练任务、优化参数设置、并行训练方法)

三、微调与对齐

第七章 指令微调(指令数据收集与合成方法、指令微调策略与作用)

第八章 人类对齐(3H标准、RLHF算法、非RL算法)

四、大模型使用

第九章 解码与部署(解码生成算法、解码加速算法、模型压缩算法)

第十章 提示学习(基础提示方法、上下文学习、思维链)

第十一章 规划与智能体(复杂规划方法、智能体搭建方法)

五、评测与应用

第十二章 评测(评测指标与方法、基础与高级能力评测、评测体系)

第十三章 应用(概览研究领域与专业领域的应用)

图片

大语言模型发展时间线

图片

LLaMA 系列模型的衍生工作进化图

在本书撰写过程中,我们收到了来自许多同行的大量修改意见,在此一并表示感谢,希望大家一如既往支持与关注我们的大模型中文书,您的支持与反馈将是我们前行最大的动力。本书的初版仅是一个起点,我们计划在网上持续进行内容的更新和完善,并特别欢迎读者提出宝贵的批评与建议,也会同步在网站上对于提出宝贵建议的读者进行致谢。如果您有任何意见、评论以及建议,请通过GitHub的Issue页面(https://github.com/LLMBook-zh/LLMBook-zh.github.io/issues)或邮箱进行反馈。

为了更好地整理和传播大模型技术的最新进展与技术体系,我们为读者提供了以下配套资源,供读者在阅读本书时进行参考和使用。

**大模型代码工具库:**我们开发了一个全面的代码工具库LLMBox,专门用于开发和实现大语言模型,其基于统一化的训练流程和全面的模型评估框架。LLMBox旨在成为训练和利用大语言模型的一站式解决方案,其内部集成了大量实用的功能,实现了训练和利用阶段高度的灵活性和效率。工具库链接:https://github.com/RUCAIBox/LLMBox。

图片

**
**

**YuLan大模型:**YuLan系列模型是中国人民大学高瓴人工智能学院师生共同开发的支持聊天的大语言模型(名字“玉兰”取自中国人民大学校花)。最新版本从头完成了整个预训练过程,并采用课程学习技术基于中英文双语数据进行有监督微调,包括高质量指令和人类偏好数据。模型链接:https://github.com/RUC-GSAI/YuLan-Chat。

图片

**
**

本书各章节的主要负责人和参与人名单如下:

  • 第三章的负责人是闵映乾和杨晨,参与人有李军毅、周昆;
  • 第四章的负责人是张君杰、侯宇蓬和周昆;
  • 第五章的负责人是董梓灿,参与人有田震和唐天一;
  • 第六章的负责人是唐天一和陈昱硕;
  • 第七章的负责人是唐天一,参与人有成晓雪;
  • 第八章的负责人是李军毅和陈志朋;
  • 第九章的负责人是陈昱硕、刘沛羽和唐天一,参与人有周昆;
  • 第十章的负责人是李军毅、汤昕宇和都一凡;
  • 第十一章的负责人是任瑞阳和蒋锦昊,参与人有李军毅;
  • 第十二章的负责人是张北辰和周昆,参与人有张高玮;
  • 第十三章的负责人是周昆,参与人(按拼音字母排序)有蒋锦昊、李依凡、刘子康、孙文奇、王禹淏、徐澜玲、杨锦霞和郑博文。

同时感谢其他所有参与本书编写、校对的同学和老师们。

图片

图片

图片

图片

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
在这里插入图片描述

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓
在这里插入图片描述

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐