大模型训练_硬件&微调&知识增强

大模型训练介绍：硬件、微调、知识增强

weixin_72808879

1204人浏览 · 2025-01-15 21:41:23

weixin_72808879 · 2025-01-15 21:41:23 发布

关键硬件

GPU

GPU擅长处理图形渲染和数据并行任务，可以同时处理大量的矩阵运算，在科学计算、人工智能、游戏开发等领域应用广泛。

显卡

显卡是一种完整的硬件设备，不仅包含GPU，还包括内存（显存）、电源管理模块、散热系统等，共同支持GPU高效工作。

英伟达历代产品参数

架构名称	中文名	发布时间	核心参数	特点 & 优势	纳米制程	代表型号
Fermi	费米	2010年	16个SM，每个SM包含32个CUDA Cores，一共512CUDA Cores	首个完整GPU计算架构，支持与共享存储结合的Cache层次GPU架构，支持ECC GPU架构	40/28nm 30亿晶体管	Quadro7000
Kepler	开普勒	2012年	15个SMX，每个SMX包含192个FP32+64个FP64CUDA Cores	游戏性能大幅提升，首次支持GPU Direct技术	28nm 71亿晶体管	K80、K40M
Maxwell	麦克斯韦	2014年	16个SM，每个SM包括4个处理块，每个处理块包括32个CUDA Cores+8个LD/ST Unit+8SFU	每组SM单元从192个减少到每组128个，每个SMM单元拥有更多逻辑控制电路	28nm 80亿晶体管	M5000、M4000、GTX 9XX系列
Pascal	帕斯卡	2016年	GP100有60个SM，每个SM包括64个CUDA Cores，32个DP Cores	NVLink第一代，双向互联带宽160GB/s，P100拥有56个SM HBM	16nm 153亿晶体管	P100、P6000、TTX1080
Volta	沃塔	2017年	80个SM，每个SM包含32个FP64+64Int32+64FP32+8个Tensor Cores	NVLink2.0，Tensor Cores第一代，支持AI运算	12nm 211亿晶体管	V100、TiTan V
Turing	图灵	2018年	102核心92个SM，SM重新设计，每个SM包含64个Int32+64个FP32+8个Tensor Cores	Tensor Core2.0，RT Core第一代	12nm 186亿晶体管	T4、2080TI、RTX5000
Ampere	安培	2020年	108个SM，每个SM包含64个FP32+64个Int32+32个FP64+4个Tensor Cores	Tensor Core3.0，RT Core2.0，NVLink3.0，结构稀疏性矩阵MIG1.0	7nm 283亿晶体管	A100、A30系列
Hopper	霍珀	2022年	132个SM，每个SM包含128个FP32+64个INT32+64个FP64+4个Tensor Cores	Tensor Core4.0，NVLink4.0，结构稀疏性矩阵MIG2.0	4nm 800亿晶体管	H100、H800

（1）SM 是一般GPU架构中的基本计算单元，表示GPU中执行并行计算的模块。SMX 是在 Kepler 架构中引入的增强版 SM，具有更高的计算能力和更优化的硬件设计。

（2）NVLink 是由 NVIDIA 开发的高速互连技术，旨在提高多个 GPU 之间的数据传输速度和带宽。主要用于在数据密集型计算任务中增强多 GPU 系统的性能。NVLink 相比传统的 PCIE总线，提供了更高的数据传输速率，并改善了 GPU 间的协作能力。

（3）GPU 是显卡的核心处理单元，负责执行图形渲染和计算任务。每个GPU由多个 SM（流处理器）组成。每个 SM 内部有多个 CUDA 核心，每个核心负责执行一个线程的操作。显卡>GPU>SM>核心。

（4）纳米制程指显卡芯片的制造工艺，制程越小，能效和性能通常越高。

（5）国产昇腾910B对标A100。

大模型类型

①自然语言处理大模型：具有语言理解能力、对话生成能力、文字创作能力。广泛应用于：医疗、金融、对话、搜索、信息抽取、跨语言、代码、图网络等场景。比如：chatgpt、百度文心一言等。

②计算机视觉大模型：通过学习海量图像数据，具备强大的图像分类、分割、识别、生成能力。广泛应用于人脸识别、自动驾驶、安防监控、医疗影像分析、商品图像识别等领域。

③多模态大模型：通过联合学习文本、图像、语音、视频等多模态的数据，实现多模态数据的综合理解和生成。应用于：基于文本生成图像（如AI绘画）、图像和视频搜索、语音-文本转换、图像字幕生成等场景。

垂域训练技术

通用大模型基于通识知识进行训练，在面对：①垂直领域知识、②私有数据问答时常常需要借助以下技术：

技术	what	适用场景	优缺点
微调（Fine-Tuning）	针对预先训练的语言模型，在特定任务的少量数据集上对其进行进一步训练	当任务或域定义明确，并且有足够的标记数据可供训练时，通常使用微调	优点：能在特定任务上取得更高的精度；缺点：需要领域标注数据；容易过拟合领域数据，导致模型泛化能力降低。
Prompt工程	涉及设计自然语言提示或指令，可以指导语言模型执行特定的任务	最适合需要高精度和明确输出的任务，提示工程可用于制作引发所需输出的查询	优点：无需额外训练，灵活适应多种任务；缺点：设计有效的prompt需要大量的试错和专业知识；难以适应非常专业化的领域。
RAG（Retrieval-Augmented Generation）	调用外部知识，作为大模型的背景知识和问题一并输入大模型	外部知识较多且更新频繁，适用于各类问答	优点：能够利用外部知识库进行动态更新，提升模型的表现和灵活性；缺点：需要高效的检索机制和高质量的知识库；可能依赖外部系统。

微调技术

PEFT（Parameter-Efficient Fine-Tuning）技术通过只调整模型的一部分参数，而不是对整个模型进行全面的调整，降低了计算资源的消耗和内存使用，适用于参数量巨大的预训练模型。

方法	简介	图示
Prefix Tuning	1. 构造一段任务相关的virtual tokens作为prefix； 2. 只更新prefix部分的参数，而transformer中的其他部分参数固定
Prompt Tuning	1. 只在输入层加入prompt tokens； 2. 随着预训练模型参数量的增加，prompt tuning的方法会逼近fine-tune的结果
Adapter Tuning	1. 首先是一个down-project层将高维度特征映射到低维度； 2. 然后经过一个非线性层之后，再用一个up-project结构将低维特征映射回原来的高维特征； 3. 同时也设计了skip-connection结构，确保了在最差的情况下能退化为identity
LoRA	1. 在原始预训练语言模型（PLM）旁边增加一个旁路，做一个降维再升维的操作； 2. 训练的时候固定PLM的参数，只训练降维矩阵A与升维矩阵B； 3. 模型的输入输出维度不变，输出时将BA与PLM的参数叠加； 4. 用随机高斯分布初始化A，用0矩阵初始化B，保证训练的开始次旁路矩阵依然是0矩阵
P-Tuning	1. 加入了prompt tokens作为输入； 2. p-tuning v2的目标就是让prompt tuning能够在不同参数规模的预训练模型、针对不同下游任务的结果上都达到匹敌fine-tuning的结果； 3. p-tuning方法在sequence tagging任务上表现都很差； 4. 在预训练模型参数规模足够大时，才能够达到和fine-tuning类似的效果，而参数规模小时效果则很差
Freeze	1. freeze方法，即参数冻结，对原始模型部分参数进行冻结操作，仅训练部分参数，以达到在单卡或不进行TP或PP操作，就可以对大模型进行训练； 2. 大量减少了大预言模型的微调参数，是一种参数高效的微调方法； 3. 由于只需要调高层特征，加快了模型的收敛，节约了微调的时间

无脑选LoRA！

LoRA微调的核心代码:

peft_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    inference_mode=False,
    r=finetune_args.lora_rank,
    lora_alpha=32,
    lora_dropout=0.1
)

model = get_peft_model(model,peft_config)
dataset = datasets.load_from_disk(finetune_args.dataset_path)

trainer = ModifiedTrainer(
    model=model,
    train_dataset=dataset,
    args=training_args,
    callbacks=[TensorBoardCallback(writer)],
    data_collator=data_collator
)

trainer.train()
writer.close()

model.save_pretrained(training_args.output_dir)