Base LLM | 从 NLP 到 LLM 的算法全栈教程第八天

张开发

• 2026/4/10 5:39:54 • 15 分钟阅读

分享文章

PEFT人工设计的、离散的文本指令我们称之为“硬提示”Hard Prompt。但是“硬提示”这种“刀耕火种”式的方法存在三个明显的局限。找到最优的提示词往往需要大量的试错和经验过程繁琐且不稳定充满了“玄学”离散的文本提示在表达能力上存在上限难以充分激发和精确控制大模型的潜力而且在一个模型上精心设计的提示换到另一个模型或另一种语言上效果可能大打折扣。学术界和工业界开始探索一种全新的方法——参数高效微调Parameter-Efficient Fine-Tuning, PEFT。核心思想冻结freeze预训练模型 99% 以上的参数仅调整其中极小一部分通常1%的参数或者增加一些额外的“小参数”从而以极低的成本让模型适应下游任务。Adapter Tuning其思路是在 Transformer 的每个块中插入小型的“适配器”Adapter模块。左侧的 Transformer 层展示了 Adapter 模块是如何被集成进去的。Adapter 被插入到每个子层注意力层和前馈网络的内部并与主干网络形成残差连接。在训练时只有 Adapter 模块的参数会被更新。图 11-1 的右侧展示了 Adapter 模块自身的结构主要包括一个“降维”的全连接层Feedforward down-project将高维特征映射到低维空间一个非线性激活函数Nonlinearity一个“升维”的全连接层Feedforward up-project再将特征映射回原始维度以及一个贯穿该模块的残差连接将模块的输出与原始输入相加保证信息流的稳定。通过这种“瓶颈式”的结构Adapter 模块可以用极少的参数量来模拟特定任务的知识。缺点是依旧吃很大资源。Prefix Tuning前缀激活值Prefix Activations图中PREFIX部分对应的激活值 hihi其中 i∈Pidx是从一个专门的可训练矩阵 Pθ 中提取的这部分参数就是微调的对象。模型计算的激活值: 而原始输入 x 和输出 y 对应的激活值则是由冻结的 Transformer 模型正常计算得出的。直接优化 Prefix 向量比微调 Adapter 更困难训练相对不稳定对超参数和初始化较为敏感同时多数实现将前缀作为各层注意力的额外 K/V 记忆其长度通常计入注意力配额可能会减少可用的有效上下文窗口。Prompt Tuning它的做法就是只在输入的Embedding 层添加可学习的虚拟 Token称为Soft Prompt不再干预 Transformer 的任何中间层。图 11-3 直观地展示了Prompt Tuning这种简化思路在实践中所带来的巨大差异它不仅是参数效率的提升更在使用范式上迈出了新的一步。对于具体任务加上提示词前缀调参时只对提示词前缀参数做调整。实验表明当模型规模较小如 1 亿参数时Prompt Tuning 的效果绿线远不如传统的模型微调红线和橙线。但当模型规模超过 100 亿时Prompt Tuning 的性能开始追平甚至超越全量微调。P-Tuning v2LoRAAdaLoRA (Adaptive LoRA)用SVD的思想将更新w变为三个矩阵的元素并不是说真的用SVD。重要性评分对于每个W计算其敏感度以及分批次的敏感度稳定性结合二者得到W重要性分数将其svd特征值设为0计算敏感度的反向传播参数总是需要计算的对模型的速度影响很小。QLoRALoRA 和 AdaLoRA 分别从“低秩近似”和“自适应秩分配”两个角度优化了微调过程但它们都还有一个共同的前提原始的、被冻结的大模型权重仍然是以较高的精度如 FP16 或 BF16加载到显存中的。对于动辄几百上千亿参数的模型来说这部分权重本身就是一笔巨大的显存开销。与冻结 16-bit 模型的标准 LoRA 相比QLoRA 更进一步将基座模型量化为 4-bit。训练时梯度会穿过被冻结的 4-bit 模型反向传播到 16-bit 的适配器中并只更新适配器参数。此外它还引入了分页优化器在显存不足时可以将优化器状态临时卸载到 CPU 内存从而有效管理内存峰值。

Base LLM | 从 NLP 到 LLM 的算法全栈教程第八天

最新文章

网盘直链下载助手完整指南：八大平台真实地址一键获取

Nunchaku FLUX.1-dev部署教程：NVIDIA Container Toolkit容器GPU直通配置

Qwen3-ASR-0.6B轻量模型优势解析：6B参数实现Llama-3-8B级别ASR精度

如何通过SMUDebugTool精细调校AMD Ryzen处理器性能

分割函数 UF_MODL_split_body 的用法代码

2007～2020 年税调与数字经济专利数据匹配结果

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

最强8B多模态模型MiniCPM-V-2_6实战：一键部署，图片问答、视频理解全搞定

Windows下OpenClaw安装详解：对接gemma-3-12b-it完成自动化测试

关于python作用域的理解

Fish Speech-1.5镜像安全合规说明：学习研究用途的开源TTS使用规范

GLM-4.7-Flash垂直场景：医疗问诊摘要、病历结构化处理案例

机器学习特征工程：缩放、编码、聚合、嵌入与自动化

MiniCPM-o-4.5-nvidia-FlagOS项目协作指南：基于GitHub的团队开发与CI/CD集成

Spring_couplet_generation批量处理脚本编写：高效生成海量春联素材

忍者像素绘卷：天界画坊Ubuntu服务器一站式部署与运维指南

winform应用程序授权和主入口点控制

OpenClaw开源生态：Qwen3-14B与第三方工具集成案例集

CUDA 11.1配置pytorch1.8错误与解决方案

Base LLM | 从 NLP 到 LLM 的算法全栈教程 第八天

最新文章

网盘直链下载助手完整指南：八大平台真实地址一键获取

Nunchaku FLUX.1-dev部署教程：NVIDIA Container Toolkit容器GPU直通配置

Qwen3-ASR-0.6B轻量模型优势解析：6B参数实现Llama-3-8B级别ASR精度

如何通过SMUDebugTool精细调校AMD Ryzen处理器性能

分割函数 UF_MODL_split_body 的用法代码

2007～2020 年税调与数字经济专利数据匹配结果

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

Base LLM | 从 NLP 到 LLM 的算法全栈教程第八天