Transformer 从零开始

张开发
2026/4/5 21:05:55 15 分钟阅读

分享文章

Transformer 从零开始
环境conda create -n torch python3.12 conda activate torch # Install PyTorch (CPU version) pip install torch torchvision # Install PyTorch with CUDA (version nvidia-smi shown) # https://pytorch.org/get-started/locally pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130运行代关键Decoder-only, RoPE, GQA, MoE, SwiGLUcd start-deep-learning/practice/Transformer pip install -r requirements.txt python build_transformer.pyBATCH_SIZE 4, 可以改 32如果显存够大。我呢训不太动 进化线之后是概括给一些关键词。基此问一下 AI能得到更好的回答呢。例如DeepSeek 归纳了 5 条核心进化线如果把大模型比作一辆车Attention是引擎GQA/MLA 是省油技术Normalization是底盘悬挂RMSNorm 保证行驶稳定激活函数是燃油标号SwiGLU 是高标号汽油位置编码是导航系统RoPE 让你知道该去哪架构是车身设计Decode-Only 最终统一了赛道。这些进化线相互配合才有了今天又长、又快、又强的 LLM。架构进化Encoder-Decoder: 原始适合 Seq2Seq 任务Decoder-only (Causal): 当前经过 Scaling Laws 验证Attention 进化KV Cache 优化注意力机制KV Cache 量级表达能力核心思想MHA (多头注意力)最大 (H)最强每个头独立看世界MQA (多查询注意力)最小 (1)较弱所有人用同一套记忆GQA (分组查询注意力)中等 (G)可控分组共享折中之道MLA (多头潜在注意力)极小 (≈1)强压缩记忆解耦计算

更多文章