Transformer 从零开始

张开发

• 2026/4/5 21:05:55 • 15 分钟阅读

分享文章

环境conda create -n torch python3.12 conda activate torch # Install PyTorch (CPU version) pip install torch torchvision # Install PyTorch with CUDA (version nvidia-smi shown) # https://pytorch.org/get-started/locally pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130运行代关键Decoder-only, RoPE, GQA, MoE, SwiGLUcd start-deep-learning/practice/Transformer pip install -r requirements.txt python build_transformer.pyBATCH_SIZE 4, 可以改 32如果显存够大。我呢训不太动进化线之后是概括给一些关键词。基此问一下 AI能得到更好的回答呢。例如DeepSeek 归纳了 5 条核心进化线如果把大模型比作一辆车Attention是引擎GQA/MLA 是省油技术Normalization是底盘悬挂RMSNorm 保证行驶稳定激活函数是燃油标号SwiGLU 是高标号汽油位置编码是导航系统RoPE 让你知道该去哪架构是车身设计Decode-Only 最终统一了赛道。这些进化线相互配合才有了今天又长、又快、又强的 LLM。架构进化Encoder-Decoder: 原始适合 Seq2Seq 任务Decoder-only (Causal): 当前经过 Scaling Laws 验证Attention 进化KV Cache 优化注意力机制KV Cache 量级表达能力核心思想MHA (多头注意力)最大 (H)最强每个头独立看世界MQA (多查询注意力)最小 (1)较弱所有人用同一套记忆GQA (分组查询注意力)中等 (G)可控分组共享折中之道MLA (多头潜在注意力)极小 (≈1)强压缩记忆解耦计算

更多文章

前端开发 2026/4/5 20:58:33

SECS协议实战：从报警触发到Trace数据采集的完整指南

1. SECS协议基础与报警管理实战半导体设备通信领域有个"隐形语言"叫SECS/GEM协议，它就像设备间的摩斯密码。今天咱们重点聊聊其中两个高频功能：报警管理（S5F1）和Trace数据采集（S2F23/S6F1）。先看…

张开发

前端开发 2026/4/5 20:46:50

瑞芯微RK3588硬件设计资料概览

瑞芯微RK3588硬件设计资料瑞芯微RK3588硬件设计资料资料包括：原理图和PCB以及叠层设计说明，硬件设计指导书等原理图和pcb用cadence打开该原理图和pcb基于网络硬盘录像机项目设计可作为RK3588学习者作为参考电路使用，或者学习高速电路者学习使…

张开发

前端开发 2026/4/5 20:46:50

步进电机电流闭环控制软件：自动计算电流环KP与KI，PWM频率达16kHz，实现Modbus通...

步进电机电流闭环控制软件： 电流闭环，电流环kp和ki自动计算； PWM频率，电流环计算频率，16kHz； modbus通信； 位置模式和速度模式。系统概述本文详细分析了一个基于STM32G0微控制器的步进电机电流…

张开发

前端开发 2026/4/5 20:44:43

PADS 铜箔区域规则与技巧

铜箔一定要非直角直角会向外辐射然后能走直线不走斜线方显布局的落落大方铜箔布好后可以选择任选去选择铜箔的边沿去拉它的形状还可以通过打断去让他多几个拐点直接分割一个

张开发

前端开发 2026/4/5 20:20:09

use Yii；的本质的庖丁解牛

use Yii; 这行代码，常被误解为“引入了一个类”或者“为了少打几个字”。但本质上，它是 Yii 框架（尤其是 Yii2）架构哲学的“图腾”。它标志着 Yii 选择了一条与 Laravel、Symfony 截然不同的道路：将核心功能暴露为一…

张开发

前端开发 2026/4/5 19:48:14

PowerToys Image Resizer：三步解决全场景图片批量处理难题

PowerToys Image Resizer：三步解决全场景图片批量处理难题【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/Power…

张开发

前端开发 2026/4/5 19:32:45

CopyMultiPath Windows 右键路径复制工具支持批量复制多行文件完整路径，无乱码无残留，提升文件操作效率

大家好，我是大飞哥。在 Windows 系统的日常办公、开发运维、文件管理等场景中，用户常面临批量复制文件完整路径的痛点，传统脚本方案稳定性差、易出现路径丢失，手动复制单个路径不仅耗时耗力，还极易出现输入错误、中文乱…

张开发

前端开发 2026/4/5 19:31:44

Winhance中文版：让Windows系统优化更简单高效

Winhance中文版：让Windows系统优化更简单高效【免费下载链接】Winhance-zh_CN A Chinese version of Winhance. C# application designed to optimize and customize your Windows experience. 项目地址: https://gitcode.com/gh_mirrors/wi/Winhance-zh_CN …

张开发

前端开发 2026/4/5 19:15:58

终极实战：15分钟容器化部署OpenObserve可观测性平台

终极实战：15分钟容器化部署OpenObserve可观测性平台【免费下载链接】openobserve OpenObserve is an open-source observability platform for logs, metrics, traces, and frontend monitoring. A cost-effective alternative to Datadog, Splunk, and Elasticsea…

张开发

前端开发 2026/4/5 19:14:15

利用快马平台快速原型设计，模拟智能应用控制拦截提示界面

最近在做一个安全相关的项目，需要模拟Windows的智能应用控制功能。这个功能大家应该都不陌生，就是当你运行某些程序时，系统会弹出警告提示"智能应用控制已阻止可能不安全的应用"。为了快速验证这个功能的交互流程，我尝试…

张开发

前端开发 2026/4/5 19:11:13

DisplayLink驱动在Linux系统上的跨发行版兼容性解决方案

DisplayLink驱动在Linux系统上的跨发行版兼容性解决方案【免费下载链接】displaylink-debian DisplayLink driver installer for Debian and Ubuntu based Linux distributions. 项目地址: https://gitcode.com/gh_mirrors/di/displaylink-debian DisplayLink技术为用户…

张开发

前端开发 2026/4/5 19:08:54

AI赋能算法创新：让快马大模型为你的智能车竞赛方案提供灵感

AI赋能算法创新：让快马大模型为你的智能车竞赛方案提供灵感智能车竞赛一直是技术爱好者展示创新能力的舞台，但面对复杂的赛道和实时控制需求，很多队伍在算法设计上容易陷入瓶颈。最近我在准备比赛时，发现InsCode(快马)平台的AI辅…

张开发

Transformer 从零开始

最新文章

GyverStepper：嵌入式步进电机控制与多轴轨迹规划库

Go - Zerolog使用入门

OpenClaw+千问3.5-9B爬虫方案：合规采集公开数据

BLDC无刷电机脉冲注入启动法及其保护功能与控制原理

jQuery 事件方法详解

OpenClaw省钱方案：百川2-13B-4bits量化版自部署实战

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

SECS协议实战：从报警触发到Trace数据采集的完整指南

瑞芯微RK3588硬件设计资料概览

步进电机电流闭环控制软件：自动计算电流环KP与KI，PWM频率达16kHz，实现Modbus通...

PADS 铜箔区域规则与技巧

use Yii；的本质的庖丁解牛

PowerToys Image Resizer：三步解决全场景图片批量处理难题

CopyMultiPath Windows 右键路径复制工具支持批量复制多行文件完整路径，无乱码无残留，提升文件操作效率

Winhance中文版：让Windows系统优化更简单高效

终极实战：15分钟容器化部署OpenObserve可观测性平台

利用快马平台快速原型设计，模拟智能应用控制拦截提示界面

DisplayLink驱动在Linux系统上的跨发行版兼容性解决方案

AI赋能算法创新：让快马大模型为你的智能车竞赛方案提供灵感