大语言模型技术指南:Transformer 为什么能成为基础架构?核心模块与参数怎么理解

张开发
2026/4/13 1:31:13 15 分钟阅读

分享文章

大语言模型技术指南:Transformer 为什么能成为基础架构?核心模块与参数怎么理解
大语言模型技术指南Transformer 为什么能成为基础架构核心模块与参数怎么理解前一篇我们先把大语言模型、视觉语言模型和多模态系统的整体地图搭起来了。如果把那篇当成“先看全景”那这一篇就要正式进入地基部分。因为你会发现不管今天外面有多少模型名LlamaQwenMistralDeepSeekGPT 系列以及很多视觉语言模型背后的语言骨架往下追基本都绕不开同一个核心词Transformer。很多人知道它重要但真正一问Transformer 到底解决了什么问题它为什么能替代 RNN、LSTM成为大模型时代的基础架构self-attention 到底在“算什么”层数、隐藏维度、注意力头数这些参数工程上分别意味着什么为什么上下文一长推理成本就会迅速变高就容易开始模糊。所以这一篇我不准备把你扔进一堆公式里而是想把 Transformer 最值得真正理解的几件事讲透它到底是在解决什么老问题self-attention 为什么会成为核心机制一个 Transformer block 里到底有哪些关键模块层数、hidden size、head 数、FFN size 这些参数分别影响什么从训练到推理Transformer 的成本为什么会变得这么敏感到了部署阶段哪些地方最容易成为瓶颈如果这篇吃透后面再学预训练、长上下文、KV cache、LoRA / QLoRA、VLM 里的视觉 token 接入你会顺很多。一、先别急着背结构先看 Transformer 到底替代了谁Transformer 出现之前序列建模主流长期是 RNN、LSTM、GRU 这条线。它们的基本思路是输入一个 token更新一次隐藏状态再把状态传给下一个时间步这种方式很符合“时间序列”的直觉。问题也很明显。1计算天然是串行的因为后一个时间步要依赖前一个时间步的状态所以训练和推理都不容易并行。2长距离依赖不好学理论上 LSTM 比普通 RNN 更能保留长期信息但实际上当序列很长时模型仍然容易出现远处信息传不过来重要信息被中间过程逐步冲淡训练变难优化不稳定3通用性不够强RNN 更像一种“按顺序滚动”的架构而 Transformer 后来之所以厉害在于它更像一种通用 token 交互框架。所以 Transformer 真正改变的不只是“效果更好”而是它把序列建模改造成了一种更适合大规模并行训练、也更适合通用模态接入的基础结构。二、Transformer 最核心的一步让 token 彼此直接看见对方如果你只记一句话我希望你记这句Transformer 的核心是让当前 token 可以直接和上下文里其他 token 建立关联而不是只能一跳一跳地传递信息。这件事靠的就是 self-attention。在传统 RNN 里如果第 1 个词和第 80 个词之间有关联中间要经过很多步状态传播。而在 Transformer 里第 80 个词可以直接去“看”第 1 个词以及整段上下文里所有其他词。这带来两个巨大变化信息路径变短相关性建模更直接所以 attention 的本质不是“花哨权重”而是让模型动态决定当前处理这个位置时整段上下文里哪些地方最值得参考。三、self-attention 到底在做什么很多人一看到 Q、K、V 就开始头大。其实先别把它想得太玄。你可以把 self-attention 先粗略理解成下面这件事当前 token 在问三个问题我在找什么信息 → Query别人各自拥有什么信息特征 → Key如果我决定关注它我到底拿走它的什么内容 → Value也就是说Query 像是当前 token 的“检索需求”Key 像是每个 token 的“索引标签”Value 像是每个 token 真正可被聚合的内容当当前 token 的 Query 和其他 token 的 Key 越匹配说明它们越相关模型就会给那个位置更高权重并把对应的 Value 更多地加进来。所以 attention 不是简单“平均看所有词”而是在做一种内容相关的加权聚合。四、为什么叫 multi-head attention“多头”到底有啥用如果只有一套 attention模型每次只能用一种方式去理解上下文关系。但现实语言关系很复杂有些头更容易关注语法依赖有些头更容易关注主谓宾结构有些头更容易关注远距离实体指代有些头更容易捕捉局部模式或重复模式所以 Transformer 不只做一次 attention而是并行做多次每次使用不同的投影空间。这就是 multi-head attention。直觉上可以理解为让模型从多个“观察角度”同时看上下文。五、一个 Transformer block 里到底有什么如果你把一个典型 Transformer block 拆开最核心一般就三层理解attention 子层前馈网络FFN子层残差连接 归一化六、第一部分attention 子层负责“信息交互”attention 子层最主要的工作是让每个 token 和其他 token 发生信息交换。你可以把它理解成这一层先决定当前位置应该从上下文哪里取信息。在因果语言模型里这里还要加上 mask保证当前位置只能看见自己和前面的 token不能偷看未来答案。七、第二部分FFN 负责“位置内变换”很多初学者容易把 attention 看成全部但其实 FFN 也非常重要。attention 更像是在做 token 之间的信息交换FFN 更像是在每个 token 自己的位置上做更深的非线性变换。可以粗略理解成attention先把别处有用的信息搬过来FFN再在当前位置把这些信息加工一遍八、第三部分残差连接和 LayerNorm 为什么这么关键如果没有残差连接深层网络训练会困难很多。残差连接的直觉作用是让每一层不是从头重写表示而是在原表示基础上做增量修改。而 LayerNorm 的作用是帮助不同层、不同位置的数值分布保持相对稳定减少训练过程中的数值漂移。所以真正成熟的理解不是“Transformer attention”而是Transformer attention 负责全局交互 FFN 负责局部变换 残差/归一化负责稳定训练。九、位置编码为什么必不可少attention 自己有一个天然问题它本身如果只看 token 集合并不知道顺序。所以模型需要额外机制来感知哪个词在前哪个词在后相对距离大概多远这就是位置编码存在的原因。早期有绝对位置编码后面很多 LLM 更常用的是 RoPE。你现在先不用急着吃透细节但要先记住没有位置信息Transformer 很难真正理解序列结构。十、几个最关键的模型参数到底分别在影响什么最核心的先抓这几个层数num layers隐藏维度hidden size注意力头数num headsFFN 中间维度intermediate size上下文长度context length十一、层数决定“计算深度”和表达层级层数越多模型就越能逐层抽取更复杂的表示。带来的变化包括表示能力增强训练难度增大推理延迟增加KV cache 层数同步增加十二、hidden size决定主表示通道有多宽hidden size 大致决定每个 token 在主干表示里有多宽的向量空间。它越大模型每个位置能承载的信息容量越高但参数量、计算量、显存开销也会明显增加。十三、num heads决定注意力被拆成多少个并行视角头数的意义是让模型从多个子空间并行看上下文。但它不是越多越好。如果 hidden size 不变头数越多每个头的维度就越小头太多可能反而让单头表示能力不足。十四、FFN intermediate size决定每层内部变换容量这个参数常常被忽略但其实非常重要。FFN 一般会把 hidden size 扩展到更大的中间维度再投回去。所以 intermediate size 越大通常意味着每层局部非线性变换更强参数量显著增加计算量也会上升十五、context length决定一次能看多长但也会迅速推高成本上下文长度变长意味着可以塞更多历史对话可以放更多检索片段可以做更长文档处理多图多模态任务里也能容纳更多 token但与此同时attention 成本会随着序列长度显著上升。这就是为什么超长上下文从来不是免费午餐。十六、Transformer 为什么训练时和推理时表现得像两种不同动物训练时通常可以并行处理整段序列推理时尤其是自回归生成要先 prefill再一个 token 一个 token 地 decode所以天然更串行。这也是为什么模型在线服务时经常卡在TTFT 太高decode 太慢并发一多就掉速十七、为什么说 attention 是能力核心也是成本核心attention 给了模型强大的上下文建模能力同时它也是长序列成本爆炸的根源之一。所以后面你会看到很多优化几乎都围着 attention 在转FlashAttentionGQA / MQA滑窗注意力稀疏注意力KV cache 优化长上下文外推技巧十八、到部署阶段哪些参数最该盯紧如果从服务部署角度我建议你重点盯模型规模与显存占用context length 与真实请求长度分布TTFT 和 decode speedKV cache 开销量化后的精度变化十九、如果你把 Transformer 学成“公式题”后面会很难用起来更有用的理解应该是attention 负责跨位置找相关信息FFN 负责在当前位置做深加工residual norm 负责把深层训练稳住position encoding 负责把顺序信息带进来layer / hidden / heads / FFN size 共同决定能力与成本二十、最后总结Transformer 之所以成为基础架构不只是因为“效果好”如果只用一句话概括这篇我会说Transformer 成为基础架构不只是因为它在论文上更强而是因为它同时满足了表达能力、并行训练能力和通用模态扩展能力。你这篇真正应该带走的是下面这几个核心认识1它替代 RNN不只是因为新而是因为更适合大规模并行和长距离建模2self-attention 的本质是让每个 token 动态决定自己该关注上下文中的哪些位置3一个 Transformer block 不只有 attentionFFN、残差连接、LayerNorm 同样关键4层数、hidden size、头数、FFN size、context length不是抽象数字而是能力与成本的共同账本5attention 既是 Transformer 的能力核心也是长上下文时代最大的成本核心之一

更多文章