从零构建大模型训练流程及原理

大型语言模型（LLMs）是基于Transformer架构的深度学习模型，旨在理解、生成和响应类似人类文本的神经网络，具备数十亿参数，专门用于处理和生成自然语言文本。这些模型通过海量数据训练，利用其复杂的网络结构来捕捉语言的序列依赖性和上下文关系。LLMs的核心优势在于其无需手动特征工程，能够自动从数据中学习表示，从而在多种自然语言处理任务中展现出强大的性能和适应性。图1.1 如此层次化的不同领域关

程序员二飞

1909人浏览 · 2024-10-24 16:38:11

程序员二飞 · 2024-10-24 16:38:11 发布

这是一个大模型训练的系列文章，将从零开始手把手带大家构建大模型训练全流程。话不多说，开始发车~

前排提示，文末有大模型AGI-CSDN独家资料包哦！

什么是大语言模型

1. LLMs是什么？

图1.1 如此层次化的不同领域关系图表明，LLM（大语言模型）代表了深度学习技术的一种具体应用，利用其处理和生成类人文本的能力。深度学习是机器学习的一个专门分支，专注于使用多层神经网络。机器学习和深度学习是旨在实现能让计算机从数据中学习并执行通常需要人类智能才能完成的任务的算法的领域。

2. LLMs的应用场景

LLM被用于机器翻译、生成新文本、情感分析、文本摘要、内容创作等众多任务。此外，大型语言模型可以用于从医学或法律等专业领域的大量文本中有效检索知识。这包括筛选文档、总结长篇文章以及回答技术性问题。总之，大型语言模型对于涉及解析和生成文本的几乎所有任务来说都是不可或缺的。它们的应用几乎是无穷无尽的，随着我们不断创新发展使用这些模型的新方法，很明显，大型语言模型有潜力重新定义我们与技术的关系，使其更加对话化、直观并且易于访问。

图1.2 大型语言模型接口使得用户与AI系统之间能够进行自然语言交流。

3. 为什么要构建和使用自己的LLMs

从头开始编码一个LLM是理解其机制和局限性的极佳练习。同时还需要了解对现有的开源LLM架构进行预训练或微调，以适应我们自己特定领域的数据集或任务。使用自定义构建的LLMs有几个优点：

保护数据隐私；
方便在客户设备上直接部署，减少延迟和降低服务器成本；
能够按需控制对模型的更新和修改。

创建一个LLM的一般过程包括预训练和微调。“预”在“预训练”中的含义是指初始阶段，此时像LLM这样的模型在一个大的、多样的数据集上进行训练，以发展出对语言的广泛理解。这个预训练的模型随后作为一个基础资源，可以通过微调进一步精炼，即在特定任务或领域相关的更窄的数据集上对模型进行具体训练。

图1.3 预训练LLM（大型语言模型）涉及在大量文本数据集上进行下一个词的预测。然后可以使用较小的标注数据集对预训练的LLM进行微调。

4. 介绍Transformer架构

大多数现代的大语言模型依赖于 Transformer 架构，首次出现在2017年的论文《Attention Is All You Need》。Transfromer 架构由两个子模块组成：编码器和解码器。编码器模块处理输入文本，并将其编码成一系列的数值表示或向量，这些向量捕捉了输入内容的上下文信息。然后，解码器模块接收这些编码的向量并生成输出文本。例如，在一个翻译任务中，编码器会将源语言的文本编码成向量，而解码器则会解码这些向量来生成目标语言的文本。Transformer 的关键组件是自注意力机制，它允许模型衡量序列中不同单词或标记的重要性。这种机制使模型能够捕捉输入数据中的长距离依赖关系和上下文关系，增强其生成连贯且上下文相关的输出的能力。

图1.4 对原始 Transformer 架构的简化描绘，这是一种用于语言翻译的深度学习模型。Transformer 由两部分组成：(a) 处理输入文本并生成文本的嵌入表示（一种数值表示，在不同维度上捕捉许多不同因素）的编码器，以及 (b) 可以用来逐词生成翻译文本的解码器。此图显示了翻译过程的最后阶段，其中解码器只需要生成最后一个词（“Beispiel”），给定原始输入文本（“This is an example”）和部分翻译的句子（“Das ist ein”），以完成翻译。

后来的 Transformer 架构变体，例如BERT（即来自变压器的双向编码器表示的简称）和各种GPT模型（即生成预训练变压器的简称），在此概念的基础上发展，以适应不同的任务。BERT基于原始变压器的编码器子模块构建，在训练方法上与GPT不同。虽然GPT是为了生成任务设计的，但BERT及其变体专门用于掩码词预测，在给定的句子中，模型预测被掩码或隐藏的词。

图1.5 Transformer 的编码器和解码器子模块的可视化表示。左边，编码器部分体现了类似BERT的LLM（大型语言模型），它们专注于掩码词预测，主要用于文本分类等任务。右边，解码器部分展示了类似GPT的LLM，它们设计用于生成任务，生成连贯的文本序列。

5. 数据集

大量训练数据集用于流行的类似GPT和BERT的模型，代表了多样且全面的文本语料库，涵盖了数十亿的文字，其中包括大量的主题和自然及计算机语言。总之，就是数据量大，一个CommonCrawl 数据集大约需要570GB的存储空间。

数据名称	描述	数据量（tokens）	训练中占比
CommonCrawl (filtered)	Web crawl data	410 billion	60%
WebText2	Web crawl data	19 billion	22%
Books1	Internet-based book corpus	12 billion	8%
Books2	Internet-based book corpus	55 billion	8%
Wikipedia	High-quality text	3 billion	3%

表1.1 主流的GPT-3大语言模型的预训练数据集（tokens数相当于文本中的单词和标点符合的数量）

6. 细品GPT架构

GPT 最初是由 OpenAI 的 Radford 等人在论文《通过生成预训练改进语言理解》中引入的。GPT-3 是该模型的放大版本，具有更多的参数，并在更大的数据集上进行了训练。这些模型是强大的文本补全模型，并且可以执行其他任务，例如拼写纠正、分类或语言翻译。相比原始 Transformer 架构，通用的 GPT 架构相对简单。基本上，它只有解码器部分而没有编码器。由于像 GPT 这样的解码器风格的模型通过一次预测一个词来生成文本，因此它们被视为一种自回归模型。

图1.6 GPT 架构仅使用了原始变压器的解码器部分。它是为了单向、从左到右的处理而设计的，使其非常适合以迭代的方式生成文本，一次预测一个词。

7. 构建大语言模型

构建大模型语言模型分为一下几个阶段：

基本的数据预处理步骤；
编码每个大型语言模型（LLMs）核心的注意力机制；
编码并预训练一个类似GPT的大型语言模型，使其能够生成新的文本；
采用一个预训练的大型语言模型，并对其进行微调。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

8种封装的1700V国产碳化硅(SiC)功率模块产品介绍及应用

MCP技术社区

（一篇入门）汽车电子电器之电机MCU控制器四

MCP技术社区

基于Echarts的甘特图实现与封装实战

Echarts（Enterprise Charts）是由百度开源的一款功能强大、高度可定制的JavaScript数据可视化库，广泛应用于各类企业级Web应用中。其核心设计理念是“以数据驱动视图”，通过声明式配置即可实现复杂图表的渲染与交互。在现代前端工程化背景下，Echarts不仅支持静态图表展示，更具备动态更新、大数据量处理和跨平台兼容等高级能力，成为构建高性能数据看板、实时监控系统和项目管理工