系统性学习掌握大模型 ——（基础篇）

系统性学习大模型，看这篇文章就够了！我将会用通俗易懂的语言对整个大模型系列的AI技术原理进行解释说明。自ChatGPT发布以来，大模型的概念逐渐被大众所熟知，从大语言模型到端到端模型再到如今的多模态模型。不同模型之间的概念和区别，很多刚入门AI的小白可能很容易混淆。我之前在文章中、视频中其实都有陆续普及过，但都是单篇论述单个模型，内容和形式上都过于分散，包括市面上的文章，也都存在这种问题，所以在学

程序员鑫港

1276人浏览 · 2024-12-25 12:01:41

程序员鑫港 · 2024-12-25 12:01:41 发布

系统性学习大模型，看这篇文章就够了！我将会用通俗易懂的语言对整个大模型系列的AI技术原理进行解释说明。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

自ChatGPT发布以来，大模型的概念逐渐被大众所熟知，从大语言模型到端到端模型再到如今的多模态模型。不同模型之间的概念和区别，很多刚入门AI的小白可能很容易混淆。我之前在文章中、视频中其实都有陆续普及过，但都是单篇论述单个模型，内容和形式上都过于分散，包括市面上的文章，也都存在这种问题，所以在学习的过程中需要分别去查找，给大家的学习造成了一定的阻碍。

这篇文章我将整合大模型、大语言模型、端到端模型、多模态模型等整个系列的知识内容，让大家能够一次性学习掌握大模型的相关知识。

01. 什么是大模型（Large Models）

大模型，在人工智能领域是指具有大量参数的机器学习/深度学习模型。这种百度百科的解释，大家一搜就看到了，但依旧很难理解透彻，所以还需要更加简洁的语言结合案例进行解释说明。

首先，我们将大模型3个字拆开来看，先说明一下什么是模型。模型，简单来讲就是算法或者数学结构，这些算法或数学结构是经过多年研究总结而成的知识。例如数学中的 y=ax+b ，是一个简单的线性模型，y是预测输出，X是输入数据，a和b可以理解为斜率和截距参数，这个模型可以通过找到最佳的a、b值，对预测值和实际值之间的差距进行最小化。

那大模型的话，则是更加复杂的模型，包含更多层（类比一次函数、二次函数、三次函数）和参数。大模型包含百万甚至数十亿个参数，这些参数在模型中扮演着类似于a和b的角色。在深度学习中，模型的层数和每层的神经元数量可以看做模型的“大小”，每一层都包含多个参数，这些参数在训练的过程中可以调整用以学习数据中的复杂模式。大模型通过学习大量的数据，来找到最佳的参数设置，从而在新的、未见过的数据上做出正确的预测。

大模型工作原理

为了进一步理解大模型，我们还需要理解大模型的训练原理或过程。这里需要大家先理解3个词：数据、算法、算力。

如果觉得这3个词不好理解，我们可以通过初中政治里讲的的生产力、生产关系、生产资料进行类比（如下图）。

在AI时代，算力可以看做是农业时代种植农作物的能力，劳力多则产出多；也可以看做是工业时代机器生产的能力，机器远超人的生产力，有着更大的生产效率。那AI时代的算力则是各种芯片，像CPU、GPU、FPGA等。

而算法则可比作生产关系，在农业时代，劳动力如何分工协作，才可以高效产出；在工业时代，机器和人如何分工，才可以将效力发挥到最大化；到了AI时代，数据结构如何设计，才能运算的更快，预测的更准确。在不断的验证和调整下，才能最终定论出一套合适的结构。

数据集，引用古人的一句话：“巧妇难为无米之炊”。在农业时代，你有再多的劳力，如果你没有土地，没有种子，就产出不了粮食。在工业时代，你有了先进的生产机器，但没有工厂，没有原材料，也就产出不了工业用品。因此在AI领域，数据集就非常关键，算法需要学习大量的数据，才能预测出最准确的内容进行输出。

关于数据集，我在这里再多补充一点。我们平时接触的数据，可以理解为都是信息，这些信息需要标注、整理为数据集，才会变成有效的信息知识点，才能被模型所识别和学习。所以把大量的数据进行标注、整理，是需要投入大量人力进去的，因为对初始数据的标注，需要人为手动的去圈定出来。比如一张狗狗的图片，你要把狗圈出来，给它打上狗的标签，那模型在学习的过程中，就可以通过这个标签去学习狗的特征，如果再输入类似狗狗特征的新图片时，模型就可以识别出图片中是狗狗还是猫猫了。所以人工智能，先有人工，才有智能。当然，随着后续技术的发展，自动标注工具以及验证模型会发展的更加成熟，也会释放掉大量的人工作业。

了解完训练大模型的3个基础要素，接下来我们再来看一下，大模型是如何被训练的。模型的训练大概可以简要的分为以下5个步骤：

第1步：准备好数据集（已完成标注）、算法、算力以及训练的平台环境。

第2步：开始进行模型训练。

第3步：将训练好的模型进行推理预测，即验证模型预测的输出内容是否准确。

第4步：根据推理预测的结果对模型进行参数微调，将优化后的模型再进行推理预测，循环往复，直到这个模型的预测准确率达到最佳。

第5步：模型调到最优后，就可以生成web应用，用户在客户端或者网页端就可以进行使用了，比如我们现在经常用到的ChatGPT、kimi、文心一言等。

02. 什么是大语言模型（Large Language Models）

理解了什么是大模型，大语言模型就会更加容易理解了，在大模型的基础下，它是专门用于处理文本数据的一种基础模型。

大语言模型，简称LLM，也可以称为生成式AI，即能够自动生成文本内容的模型。LLM通过大量学习数据或者语料库，从中提取潜在的语言规则、模式和结构，并利用这些规则和结构生成新的，与原始数据类似但不限于原始数据的文本内容，最终可以达到像人类一样，理解和生成文本以及其他形式的内容。

大语言模型工作原理

LLM 由多层神经网络组成，每层神经网络的参数都可以在训练过程中微调，而被称为注意力机制的众多网络神经层则进一步增强了神经网路的能力，这些神经网络可以对数据集的特定部分进行调整。

在训练过程中，模型会学习根据前面一个单词的上下文来预测句子中的下一个词，也就是说根据已经给定，根据概率和注意力机制来预测下一个词。

LLM内部有一种特殊的工具，叫做“注意力机制”，它帮助模型专注于文本中的关键部分，比如句子的主语或动词，这样它就能更好地理解句子的意思。LLM将每个单词转换成一种数字代码，这些代码代表了单词在特定上下文中出现的概率。为了让LLM变得准确，它需要在数十亿页的文本上进行训练，这样它就能学会语言的各种细微差别。经过训练后，LLM可以根据你给出的提示，自动生成连贯的文本，就像一个作家一样。为了让LLM更好地工作，人们会使用一些技巧来提高它的性能，比如让它学习如何更好地理解人类的反馈，避免生成有偏见或者错误的内容。在训练LLM时，人们会特别注意避免它学习到不良的内容，比如仇恨言论或者错误信息，这样它就不会在生成文本时犯这些错误。

大语言模型应用案例

LLM 正在重新定义越来越多的业务流程，并已在各个行业的无数用例和任务中证明了它们的多功能性。比如文本生成、内容摘要、AI助手、代码生成、情感分析、语言翻译等应用。

03. 什么是端到端模型（End To End Models）

端到端的模型特点在于处理数据的方式是不一样的，是对处理任务的复杂模型进行精简化，多个步骤可以解决的问题，用一个步骤就可以解决，即从输入端通过一个模型就可以直接到输出端，让模型在处理任务上可以更加地高效和快捷，这种方式就称为端到端的模型。

端到端模型工作原理

对于一个复杂的任务来讲，我们习惯把它分解成若干个模块，比如下图中，我们给定一个输入，我经过若干个模块之后，我才能得到一个输出，也就是先解决第一个问题，然后在此基础上再解决第二个问题，再解决第3个，最后我们才能得到一个输出。

那还有另外一种解题方式，就是给定一个输入，我通过一步就能得到输出。

我们如果把每个方框看做是一个模型，那第一种方式的话是需要经过若干个线性的串联模型才能得到输出，而第二种方式只需要一个模型就可以得到输出。

这个说法如果太简单的话，我来给大家举个例子吧，就比如我们现在应用非常广泛的语音技术，简要点来讲可以分为3个步骤。

首先用户输入一句话，我们需要对它进行识别，就有一个ASR语音识别的模型，这个模型需要把语音转换为文字，这是第一个步骤；转成文字之后，需要大语言模型对文字进行处理，处理完之后，回答出来的也是文字；第三步再通过TTS语音合成模型把生成的文字转成语音输出出来，所以这样的一个过程呢，就不叫端到端。

如果是端到端呢，做这样一个语音对话，应该怎么样做，那就是训练一个模型，这个模型直接输入语音，那么在模型内部，它能理解语音的含义，而且能够做出回答，直接语音输出，一个模块浑然一体，你这边直接语音输入，它那边就语音输出，这个就叫端到端。

所以端到端就是，把很多处理步骤能够用一个模型去完成。那这种模型它有什么好处呢？第一个好处就是速度快，延迟低，只需要一步就能完成任务，它在训练的时候效果要好于多个模块，当然前提是你要把它训练好。第2个是灵活性，如果我们未来有一个新的任务要做，那么对我们这种标准化流程来讲，可能就要从头去改程序，要改变流程本身，对于端到端的模型来说，可能只需要去搜集一些新的领域的数据，用这些数据进行一个训练就可以了。第3个，我觉得端到端的模型来做训练，有举一反三的能力，因为原来标准化的流程，很多是基于规则在做（应试教育），而端到端是通过对大量数据的训练和学习进行推理和预测（素质教育），尤其transformer这种模型，能够产生泛化的能力，就是举一反三的能力，这样的话就使得端到端的模型的适应性会更加广泛。

端到端模型应用案例

目前端到端模型应用最广泛的领域是汽车的智能座舱和自动驾驶模块，像特斯拉的FSD智驾系统，小鹏的AI天玑系统等。

04. 什么是多模态大模型（Multimodal Large Language Models，简称MLLMs）

前面有讲大语言模型（LLM），那LLM可以理解为多模态大模型的一个特例，LLM它只涉及到文本数据的处理，而多模态大模型处理的数据不仅包含文本，还包含图片、视频、音频等。所以，多模态大模型也被称作多模态大语言模型。

多模态大模型（MLLMs）的核心优势就在于它们能够处理和理解来自不同模态（文本、图片、音频、视频）的信息，并将这些信息融合以完成复杂的任务。例如，MLLMs可以分析一张图片并生成描述性的文本，或者根据文本描述生成相应的图像。这种跨模态的理解和生成能力，使得MLLMs在多个领域，如自动驾驶、智能助理、内容推荐系统等方面，都有广泛的应用前景。

多模态大模型工作原理

我们讲到多模态大模型可以被称作为多模态大语言模型，为什么呢？接下来我们了解一下它的工作原理，就会一目了然。

我们先简要的将它的工作原理分为7个步骤，如下图。

第一步：输入文本、音频、视频等不同模态的数据集。

第二步：编码器，编码器其实也是一种模型，用以将人类理解的信息翻译成模型（机器）可以理解的信息。用多模态编码器把各种不同形式的信息，比如图片、文字、声音、视频等，翻译成一种统一的、模型（机器）能够理解的“语言”，将图片转化为可理解的图片特征，文字转化为可以理解的文字特征，视频转化为可以理解的视频特征。这样，模型就能够处理这些信息，就像人类用同一种语言交流一样。

第三步：投影器，也是一种模型，用以将不同特征空间的信息统一投射到文本语义空间。上一步中，这些特征虽然能被理解了，但它们还是处于不同空间的特征，投影器就是需要将他们归一化，将他们投射到统一的文本语义空间中去。

第4步：大语言模型，投影器将不同特征的信息统一投影为文本语义的时候，大语言模型就可以根据输入处理相应的任务了。

第5步：输出投影器：大语言模型处理完任务后，就要进行输出，那输出之前，需要把归一化的语义又分别投影到各自的特征空间去，也就是说你怎么来的就要怎么回去。

第6步：投影器将输出内容投射到各自空间后，还需要模态生成器再次翻译一下，将模型（机器）理解的”语言“转化为人可以理解的”语言“进行输出。