从零实现BPE Tokenizer与TransformerLM：斯坦福CS336作业1深度解析

张开发

• 2026/4/21 15:37:12 • 15 分钟阅读

分享文章

从零实现BPE Tokenizer与TransformerLM：斯坦福CS336作业1深度解析

1. BPE Tokenizer实现详解BPEByte Pair Encoding是现代大语言模型中最常用的分词算法之一它的核心思想是通过不断合并高频出现的字节对来构建词汇表。我在实现过程中发现相比直接套用现成的分词器从零实现能让你真正理解GPT系列模型处理文本的底层逻辑。1.1 基础数据结构设计BPETokenizer类的初始化需要精心设计数据结构。我采用了三个核心字典stoi存储token到token_id的映射itos存储token_id到token的逆向映射merges_rank记录合并操作的顺序初始化时特别要注意处理特殊token和单字节字符def __init__(self, vocab_size: int, special_tokens: list[str] | None None): self.vocab_size vocab_size self.special_tokens special_tokens or [] self.special_tokens_bytes [token.encode(utf-8) for token in self.special_tokens] self.merges [] # 初始化特殊token for i, token_bytes in enumerate(self.special_tokens_bytes): self.stoi[token_bytes] i self.itos[i] token_bytes # 初始化单字节字符0-255 offset len(self.special_tokens_bytes) for i in range(256): self.stoi[bytes([i])] i offset self.itos[i offset] bytes([i])1.2 训练过程优化技巧原始暴力实现会遇到严重的性能问题。我通过三个关键优化将训练时间从7分钟缩短到0.3秒双向链表结构维护token序列的同时记录前后节点关系最大堆优化使用自定义PairItem类实现按频次和字典序排序增量更新策略只处理受合并影响的相邻pair避免全量统计核心的堆排序逻辑如下class PairItem: def __lt__(self, other): if self.count ! other.count: return self.count other.count # 频次降序 if self.bytes1 ! other.bytes1: return self.bytes1 other.bytes1 # 第一token字典序降序 return self.bytes2 other.bytes2 # 第二token字典序降序实际测试表明处理10MB文本时优化后的实现比暴力方法快200倍以上。这个优化过程让我深刻理解了算法数据结构选择对NLP系统性能的关键影响。2. Transformer语言模型实现2.1 RoPE位置编码实现RoPERotary Position Embedding是当前最先进的位置编码方式。在实现时要注意三个细节数值稳定性计算频率和旋转矩阵时使用float32避免精度损失缓存机制预先计算并缓存cos/sin值提升推理速度维度处理确保d_k维度能被2整除这是我的实现方案def forward(self, x, token_positions): x x.float() # 提升计算精度 x_pair rearrange(x, ... (d_pair two) - ... d_pair two, two2) cos self.cos_cached[token_positions] sin self.sin_cached[token_positions] # 构建旋转矩阵 rot_mat torch.stack([ torch.stack([cos, -sin], dim-1), torch.stack([sin, cos], dim-1) ], dim-2) # 应用旋转 x_rot einsum(rot_mat, x_pair, ... i j, ... j - ... i) return rearrange(x_rot, ... d_pair two - ... (d_pair two))2.2 注意力机制实现多头注意力是Transformer的核心组件。在CS336作业中我们需要特别注意分头计算使用einops的rearrange操作高效处理多头掩码处理正确实现因果注意力掩码值缓存为后续的自回归生成预留接口关键实现片段q rearrange(self.w_q(x), b s (h d_k) - b h s d_k, hself.num_heads) k rearrange(self.w_k(x), b s (h d_k) - b h s d_k, hself.num_heads) v rearrange(self.w_v(x), b s (h d_v) - b h s d_v, hself.num_heads) # 应用RoPE位置编码 q self.rope(q, token_positions) k self.rope(k, token_positions) # 计算注意力分数 attn_scores einsum(q, k, b h i d, b h j d - b h i j) / math.sqrt(self.d_k) attn_scores attn_scores.masked_fill(mask 0, float(-inf)) attn_weights torch.softmax(attn_scores, dim-1) output einsum(attn_weights, v, b h s d, b h d v - b h s v)3. 工程实践技巧3.1 高效批处理实现在数据加载环节我设计了一个EpochSampler类确保每个epoch都不重复采样class EpochSampler: def __init__(self, num_positions: int, device: torch.device): self.N num_positions self.device device self._shuffle() def _shuffle(self): self.perm torch.randperm(self.N, deviceself.device) self.cursor 0 def next(self, k: int) - torch.Tensor: if self.cursor k self.N: self._shuffle() idx self.perm[self.cursor : self.cursor k] self.cursor k return idx使用时配合get_batch函数def get_batch(dataset, batch_size, context_length, sampler): starts sampler.next(batch_size) offsets torch.arange(context_length1, devicedataset.device) positions starts.unsqueeze(1) offsets.unsqueeze(0) tokens dataset[positions] return tokens[:, :-1], tokens[:, 1:]3.2 内存优化技巧在处理大文本时我发现几个有效的内存优化方法使用array代替list存储token id时用array(H)比list节省50%内存流式处理避免一次性加载全部文本到内存预分配缓冲区对已知最大长度的序列预先分配内存在BPE编码中的具体应用def _encode_ordinary_text(self, text_bytes: bytes): ids_out array(H) # uint16节省内存 for word_b in iter_pretokenize(text_bytes): token_ids array(H, (self.stoi[bytes([b])] for b in word_b)) # 执行合并操作... ids_out.extend(token_ids) return ids_out.tolist()4. 测试与调试4.1 分词器测试策略为确保BPE分词器的正确性我设计了多维度测试方案往返测试验证encodedecode是否能还原原始文本边界测试空字符串、单字符、特殊字符等边界情况一致性测试与tiktoken官方库的输出对比性能测试确保训练和编码速度达标测试案例示例def test_special_tokens(): tokenizer BPETokenizer(vocab_size100, special_tokens[|endoftext|]) text Hello|endoftext|World ids tokenizer.encode(text) assert ids [ tokenizer.stoi[bH], tokenizer.stoi[be], # ...其他字母 tokenizer.stoi[b|endoftext|], tokenizer.stoi[bW], # ...其他字母 ] assert tokenizer.decode(ids) text4.2 模型调试技巧在调试TransformerLM时这些工具特别有用梯度检查使用torch.autograd.gradcheck验证反向传播形状断言在每个关键步骤检查张量形状数值可视化用matplotlib绘制注意力权重简化测试先用极小的模型和数据集验证基础功能我的debug代码片段def debug_attention(): # 创建微型模型 (d_model8, num_heads2) model MultiheadSelfAttentionWithRoPE(8, 2, 16, 10000.0) # 生成测试输入 (batch1, seq_len3) x torch.randn(1, 3, 8) # 前向传播 with torch.autograd.detect_anomaly(): out model(x) # 检查输出形状 assert out.shape (1, 3, 8) # 检查注意力权重 print(model.last_attn_weights)实现过程中最深的体会是理论理解与工程实现之间存在巨大鸿沟。比如RoPE论文中的公式看起来简洁但实际实现时要处理各种维度变换和数值精度问题。通过这个作业我建立起了对大语言模型底层技术栈的完整认知这对后续的模型调优和问题排查都有极大帮助。

更多文章

前端开发 2026/4/21 15:37:42

Winhance中文版：3步让Windows系统焕然一新的神奇工具

Winhance中文版：3步让Windows系统焕然一新的神奇工具【免费下载链接】Winhance-zh_CN A Chinese version of Winhance. C# application designed to optimize and customize your Windows experience. 项目地址: https://gitcode.com/gh_mirrors/wi/Winhance-zh_…

1 定义 ngx_time_sigsafe_update 函数定义在 ./nginx-1.24.0/src/core/ngx_times.cvoid ngx_time_sigsafe_update(void) {u_char *p, *p2;ngx_tm_t tm;time_t sec;ngx_time_t *tp;struct timeval tv;if (!ngx_trylock(&ngx_time_lock))…

张开发

前端开发 2026/4/20 0:38:17

Python的complex方法支持复数比较与排序在数值运算中的完整实现

Python作为一门强大的编程语言，其数值运算能力一直备受推崇。复数在Python中的比较与排序却是一个容易被忽视的领域。复数默认不支持直接比较，这在某些科学计算或工程应用中可能带来不便。本文将深入探讨如何通过实现__complex__方法，为复数赋…

张开发

从零实现BPE Tokenizer与TransformerLM：斯坦福CS336作业1深度解析

最新文章

别再手动配环境了！用MedeA 3.5一站式搞定VASP和LAMMPS计算（附新手避坑指南）

地平线开始回答自动驾驶世界模型的解法，CompoSIA方案解析......

15N70-ASEMI中大功率场景的能效新王者15N70

告别手动打卡！用腾讯云函数+Node.js搞定网站每日签到（附完整Cookie抓取教程）

避坑指南：用vprbs做SerDes链路仿真时，你的PRBS序列真的设对了吗？

JD-GUI终极指南：快速掌握Java字节码反编译的完整教程

推荐文章

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构

机器人逆解编程避坑：为什么你的关节角度会突然跳变？聊聊atan2的36种‘过零’情况

前端三剑客 vs Vue.js：核心区别解析

AGI不是演化的终点，而是认知范式的断层重启：20年一线实践者亲述——为什么今天部署的每个大模型都在为AGI铺错路

3分钟告别英文界面：FigmaCN让你的设计工作流更流畅

1.3寸OLED 12864 SH1106中文字库屏：从硬件解析到中文显示实战

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

Winhance中文版：3步让Windows系统焕然一新的神奇工具

Chrome画中画扩展终极指南：如何实现高效多窗口视频播放

彻底搞懂「迭代器 Iterator」与「游标 Cursor」—— 同源异路的遍历设计

Weston实战配置：从环境变量到高级显示控制的完整指南

ETH-01串口以太网模块实战：5分钟搞定TCP监听与Python数据处理

飞书文档转Markdown终极指南：3分钟实现完美格式转换

别再只调包了！深入Scipy信号处理：手撕一个简易的FIR滤波器并对比Butterworth效果

抖音无水印下载终极实战：douyin-downloader 技术原理与高效应用指南

实测Elephant匿名模型：轻量级任务高效，token效率比肩GPT - 5.4 Mini

【智能代码生成×知识图谱融合实战指南】：20年架构师亲授3大落地场景与5个避坑红线

ngx_time_sigsafe_update

Python的complex方法支持复数比较与排序在数值运算中的完整实现