深度学习：基于MindSpore的极简风大模型微调

深度学习：基于MindSpore的极简风大模型微调

2024-12-27 09:47

PEFT(Parameter Efficient Fine-Tuning)是一系列让大规模预训练模型高效适应于新任务或新数据集的技术。

PEFT在保持大部分模型权重冻结，只修改或添加一小部份参数。这种方法极大得减少了计算量和存储开销，但保证了大模型在多个任务上的复用性。

大规模预训练模型如GPT、BERT或ViT拥有大量参数。为每个具体任务全参微调这些模型不仅耗费大量计算量，同时需要巨大的存储资源，这些资源往往难以承担。

PEFT很好地利用了预训练模型在通用任务上的能力，同时提升了模型在具体任务上的表现。同时PEFT能减少过拟合并提供更好的通用型。

1. 冻结大部人预训练模型的参数

2. 修改或添加小部份参数

3. 模型训练时，只修改小部份参数即可

Additive PEFT（加性微调）：在模型特定位置添加可学习的模块或参数。如：Adapters、Prompt-Tuning

Selective PEFT（选择性微调）：在微调过程只更新模型中的一部份参数，保持其余参数固定。如：BitFit、HyperNetworks

Reparameterization PEFT（重参数化微调）：构建原始模型参数的低秩表示，在训练过程中增加可学习参数以实现高效微调。如：LoRA (Low-Rank Adaptation)、Prefix-Tuning

Prefix Tuning在每个Transformer Block层加入Prefix Learnable Parameter（Embedding层），这些前缀作为特定任务的上下文，预训练模型的参数保持冻结。相当于在seq_len维度中，加上特定个数的token。

但Prefix Tuning在需要更深层次模型调整的任务上表现较差。

Adapters是较小的，可训练的，插入在预训练模型层之间的模块。每个Adapter由一个下采样模块，一个非线性激活和一个上采样模块组层。预训练模型参数保持冻结，adapters用于捕捉具体任务的知识。

环境需求：2.3.0-cann 8.0.rc1-py 3.9-euler 2.10.7-aarch64-snt9b-20240525100222-259922e

安装mindNLP

加载依赖

通过mindnlp.peft库加载模型并进行prefix配置

加载、预处理数据集

进行微调训练

模型评估

模型保存

加载模型进行推理

BitFit需要冻结除Bias外的所有参数，只训练Bias参数。

其余数据预处理代码和训练代码与上述相同。

LoRA（Low Rank Adaptation）专注于学习一个低秩矩阵。通过在冻结的预训练权重中添加可学习的低秩矩阵。在前向传递过程中，冻结的权重和新的低秩矩阵参与计算。

低秩矩阵指的是相较于原矩阵，秩更低的矩阵。加入一个矩阵的形状为m x n，矩阵的秩最多为min(m, n)，低秩矩阵的秩数远远小于原本的m和n。

LoRA微调不更新原本m x n的权重矩阵，转而更新更小的低秩矩阵A(m, r), B(r, n)。假设W0为512x512，低秩矩阵的r则可以为16，这样需要更新的数据只需要（512x16+16x512）=16384，相较于原来的512x512=262144，少了93.75%。

LoRA实现的基本思路代码

LoRA的MindSpore实现

其余数据预处理代码和训练代码与上述相同。

更多内容可以参考mindspore的官方视频：