字节二面挂了！被问“100 亿短链接如何不重复？”，面试官：你只会用 MD5？

张开发

• 2026/6/26 3:58:48 • 15 分钟阅读

分享文章

如何把一个 100 字符的长 URL 缩短成 6 位短码本文拆解短链接系统的底层逻辑从Base62 算法到分布式 ID 生成器从302 重定向策略到布隆过滤器防穿透。带你掌握支撑千亿级跳转的架构方案文末附面试满分模板。写在开头前两天有个兄弟跟我复盘字节跳动二面他被问到一个经典的系统设计题“我们要设计一个像 t.cn 或 dwz.cn 这样的短链接系统每天要处理亿级的新增和跳转你怎么设计”这哥们想都没想“简单啊把长链接拿去做个 MD5取前 6 位当短码存到数据库里。查询的时候根据短码查出长链接直接跳转不就行了”面试官推了推眼镜连发三问“MD5 必然会有哈希碰撞100 亿数据下两个不同长链生成了同一个短码你让用户跳哪去”“为了性能你肯定要加缓存但如果有人恶意攻击不停访问不存在的短码你的数据库瞬间就会被打挂怎么防”“HTTP 状态码你选 301 还是 302如果选错了你的运营数据统计点击量、来源全得报废你知道为什么吗”他当场宕机。其实这道题考的是“高并发系统的唯一性保证与全链路优化”。今天 Fox 带你拆解短链接系统的 3 种架构境界。一、核心博弈HTTP 301 还是 302这是面试官考察你对业务理解的第一关。301 (Permanent Redirect)永久重定向。浏览器会缓存跳转关系下次访问直接跳不经过你的服务器。优点节省服务器压力。致命缺点****你拿不到点击数据了作为短链接服务核心价值就是统计点击量、设备信息、地区等。一旦 301你的后台统计全是 0。302 (Temporary Redirect)临时重定向。每次访问都会经过短链接服务器。优点完美统计每一次点击进行数据分析。Fox 的结论除非服务器快崩了要保命否则必须选 302。数据才是短链接系统的灵魂。二、算法之争怎么生成那 6 位短码100 亿数据量短码长度多少才够我们通常使用Base62 编码a-z, A-Z, 0-9。如果是 6 位短码总容量是亿如果是 7 位则是万亿。对于 100 亿数据6 位足矣。境界 1哈希算法会有碰撞像 MD5 或 MurmurHash。痛点既然是哈希就一定有碰撞。虽然几率小但 100 亿量级下碰撞是必然。补救发现碰撞后在长链后面拼个随机字符串再重新哈希。但这会多出一次 DB 查询性能受损。境界 2自增序列法主流解法不搞哈希直接给每个长链接分配一个唯一 ID。第一个长链 ID 是 1第二个是 2...将 ID 转为 Base62 编码。比如 ID 100,000,000 转出来可能就是 6LAze。优点绝对唯一永不重复。挑战分布式 ID 的生成速度。三、架构实现如何支撑千亿级数据1. 分布式 ID 生成器发号器单机自增肯定不行。我们可以采用类似美团 Leaf 或推特 Snowflake 的方案号段模式每次从数据库批量申请 10000 个 ID 缓存在内存里用完再去申请。优势避免频繁请求数据库支撑每秒万级以上的新增请求。2. 读写分离与缓存策略写发号器生成短码 - 存入数据库 - 存入 Redis。读先查 Redis。短链接一旦生成就不会变缓存命中率极高。布隆过滤器Bloom Filter在访问 Redis 之前先过一层布隆过滤器。如果布隆过滤器说这个短码不存在直接拦截防止缓存穿透打挂数据库。3. 如何应对热点 Key比如某个大 V 发了一条微博短链接瞬间被点爆。方案开启 Redis 的Local Cache二级缓存。在本地 Tomcat 内存中缓存极热点的短链接连网络 I/O 都省了。四、面试标准答案模板直接背诵“针对短链接系统设计我的核心思路是‘发号器机制 Base62 编码多级缓存策略’状态码选择采用HTTP 302确保每一笔点击流量都能经过后台实现精确的业务数据统计。生成逻辑舍弃有碰撞风险的哈希算法采用分布式号段模式生成唯一自增 ID。将 ID 进行Base62 编码6 位短码即可支撑 568 亿数据量。查询性能采用 Redis 缓存所有短码映射由于短链接具有‘只读’属性缓存命中率非常高。系统安全在接入层部署布隆过滤器拦截恶意构造的非法短码请求保护后端数据库不被穿透。存储扩展针对百亿级数据对数据库进行分库分表按短码哈希分片并配合 CDN 加速静态资源的访问。”写在最后技术面试考的从来不是你会不会用 MD5而是你对数据碰撞、存储成本、以及全链路稳定性的掌控力。能把一个简单的 ab 问题拆解成分布式 ID、缓存穿透防御、以及 HTTP 协议深度运用的系统方案这才是架构师的功底。

更多文章

前端开发 2026/6/24 16:03:55

别再手动调PID了！用MATLAB系统辨识工具箱+Simulink，5分钟搞定云台电机模型

云台电机建模与PID调参：MATLAB系统辨识工具箱实战指南在嵌入式开发领域，云台电机的精确控制一直是工程师们面临的挑战。传统的手动PID调参不仅耗时耗力，还难以达到理想的控制效果。本文将介绍如何利用MATLAB系统辨识工具箱和Simulink&#x…

张开发

前端开发 2026/6/15 9:45:59

别再只盯着Transformer了！用MOE（专家混合）搞定亿级参数时序预测，附Time-300B数据集使用指南

突破时序预测瓶颈：基于MOE架构的亿级参数模型实战指南当工业传感器每分钟产生数百万条数据流，当金融市场的毫秒级交易记录堆积如山，传统时序预测模型开始显露出力不从心的疲态。Transformer架构虽然在自然语言处理领域大放异彩，但…

张开发

前端开发 2026/6/24 16:03:51

郭老师-向内求，是你最好的转运方式

向内求，是你最好的转运方式 ——心力修炼的四个法门“一个人转运的最佳方式， 不是向外求神拜佛， 而是—— 向内，彻底收拢你散乱的心力。”🌿 心力是你一生中最宝贵的财富， 切莫让它白白浪费。⚠️ 一、心力…

张开发

$Latex进阶：自定义命令实现圆圈填充效果（tikz实战）$

前端开发 2026/6/15 15:58:52

Latex进阶：自定义命令实现圆圈填充效果（tikz实战）

LaTeX进阶：用TikZ自定义命令实现专业级圆圈填充效果在科研论文和技术文档中，可视化元素的精确控制往往能大幅提升内容的专业度。作为LaTeX用户，你是否厌倦了反复绘制相同的标注符号？当需要在文档中大量使用圆圈标注状态&#xff…

张开发

前端开发 2026/6/15 16:00:08

企业安防智能化升级实战：从传统监控到AI预警的完整配置指南

企业安防智能化升级实战：从传统监控到AI预警的完整配置指南在数字化转型浪潮中，中小企业安防系统正面临前所未有的升级机遇。过去依赖人工值守和简单录像回放的安防模式，已经难以应对日益复杂的安全挑战。据统计，采用智能安防系统…

张开发

前端开发 2026/6/24 16:05:46

逆光拍人脸总发黑？hi3519的AE策略+WDR联动调试避坑指南

逆光场景下海思芯片的人脸亮度优化实战指南当阳光从被摄对象背后直射镜头时，安防摄像头常常会遇到人脸区域严重欠曝的问题。这种现象在出入口管控、人脸识别闸机等场景尤为常见——系统明明检测到了人脸，却因为面部细节完全淹没在阴影中而无法完成特征提…

张开发

前端开发 2026/6/24 15:01:07

Windows系统下暴力结束紫域电子教室进程的完整指南（含端口释放教程）

Windows系统下紫域电子教室异常进程的深度处理方案机房管理员最头疼的莫过于教学软件异常崩溃后无法重新启动的情况。紫域电子教室作为广泛使用的多媒体教学系统，其教师端进程StudentMain.exe偶尔会出现异常驻留问题，不仅占用系统资源，还会锁…

张开发

前端开发 2026/6/15 15:59:44

MRI脉冲序列设计的基石：手把手拆解布洛赫方程中的旋转矩阵（附Python模拟代码）

MRI脉冲序列设计的基石：手把手拆解布洛赫方程中的旋转矩阵（附Python模拟代码） 想象一下，你正在用乐高积木搭建一座复杂的城堡。每一块积木都有其特定的形状和功能，而布洛赫方程中的旋转矩阵就像是MRI脉冲序列设计中的&…

张开发

前端开发 2026/6/25 3:46:40

G-Helper深度评测：华硕笔记本性能调优的终极轻量解决方案

G-Helper深度评测：华硕笔记本性能调优的终极轻量解决方案【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix,…

张开发

前端开发 2026/6/24 16:05:35

SITS2026多模态融合能力认证考试通过率骤降41%的背后：5个高频丢分点深度拆解（含官方题库未公开的第6类融合故障诊断题）

第一章：SITS2026多模态融合能力认证考试趋势与能力图谱重构 2026奇点智能技术大会(https://ml-summit.org) SITS2026认证体系不再聚焦单一模态模型调优，而是以跨模态语义对齐、实时异构数据协同推理、低资源场景下的泛化鲁棒性为三大能力锚点。考试内容…

张开发

前端开发 2026/6/15 15:59:37

Windows端口转发终极指南：告别netsh命令行，拥抱PortProxyGUI

Windows端口转发终极指南：告别netsh命令行，拥抱PortProxyGUI 【免费下载链接】PortProxyGUI A manager of netsh interface portproxy which is to evaluate TCP/IP port redirect on windows. 项目地址: https://gitcode.com/gh_mirrors/po/PortProxy…

张开发

前端开发 2026/6/15 15:59:20

计算机毕业设计：Python空气质量与气温智能预测平台 Flask框架随机森林 K-Means 可视化数据分析大数据机器学习深度学习（建议收藏）✅

博主介绍：✌全网粉丝10W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久，选择我们就是选择放心、选择安心毕业✌ > 🍅想要获取完整文章或者源码，或者代做，拉到文章底部即可与…

张开发

字节二面挂了！被问“100 亿短链接如何不重复？”，面试官：你只会用 MD5？

最新文章

AI推理卡在GC上？.NET 11 GC第7代改进与Span＜T＞-First内存策略（附3个内存泄漏检测脚本）

2026届必备的五大降重复率助手横评

工业机器人智能进化的革命性突破：6自由度机械臂从理论到实践的完整技术解析

为什么你的EF Core向量搜索在K8s集群中频繁OOM？——基于eBPF追踪的内存泄漏根因分析（附诊断脚本+自动修复中间件）

荒岛求生与系统容灾：从《新概念英语》Lesson 12聊聊你的“业务救生筏”准备好了吗？

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

推荐文章

相关文章

分享文章

更多文章

别再手动调PID了！用MATLAB系统辨识工具箱+Simulink，5分钟搞定云台电机模型

别再只盯着Transformer了！用MOE（专家混合）搞定亿级参数时序预测，附Time-300B数据集使用指南

郭老师-向内求，是你最好的转运方式

Latex进阶：自定义命令实现圆圈填充效果（tikz实战）

企业安防智能化升级实战：从传统监控到AI预警的完整配置指南

逆光拍人脸总发黑？hi3519的AE策略+WDR联动调试避坑指南

Windows系统下暴力结束紫域电子教室进程的完整指南（含端口释放教程）

MRI脉冲序列设计的基石：手把手拆解布洛赫方程中的旋转矩阵（附Python模拟代码）

G-Helper深度评测：华硕笔记本性能调优的终极轻量解决方案

SITS2026多模态融合能力认证考试通过率骤降41%的背后：5个高频丢分点深度拆解（含官方题库未公开的第6类融合故障诊断题）

Windows端口转发终极指南：告别netsh命令行，拥抱PortProxyGUI

计算机毕业设计：Python空气质量与气温智能预测平台 Flask框架随机森林 K-Means 可视化数据分析大数据机器学习深度学习（建议收藏）✅