从INRIA到Cityscapes：手把手教你用Python复现HOG+SVM，并分析它为什么输给了深度学习

张开发

• 2026/4/18 2:26:37 • 15 分钟阅读

分享文章

从INRIA到Cityscapes手把手教你用Python复现HOGSVM并分析它为什么输给了深度学习在计算机视觉的发展历程中HOGSVM算法组合曾是一颗耀眼的明星。2005年Navneet Dalal和Bill Triggs提出的这一方法在行人检测领域创造了惊人的准确率成为后续多年工业界和学术界的黄金标准。本文将带您穿越时空亲手用Python实现这一经典算法并在现代数据集上检验它的表现从而深入理解深度学习革命为何势不可挡。1. 搭建HOGSVM的实验环境要复现这一经典算法我们需要搭建一个轻量但完整的实验环境。以下是推荐的工具链组合# 环境配置示例 conda create -n hog_svm python3.8 conda install -c conda-forge numpy scipy matplotlib scikit-learn opencv pip install jupyterlab关键组件说明OpenCV提供基础的图像处理和HOG特征计算功能scikit-learn用于SVM模型的训练和评估Jupyter Notebook交互式实验的理想环境提示建议使用64位Python环境处理大尺寸图像时内存效率更高INRIA数据集是这个实验的起点它包含正样本614张64×128像素的行人图像负样本1218张非行人图像测试集288张正样本和453张负样本2. HOG特征提取的Python实现虽然OpenCV提供了现成的HOG实现但理解其计算过程至关重要。下面是我们自己实现的简化版HOGdef custom_hog(image, cell_size(8,8), block_size(2,2), bins9): # 计算x和y方向的梯度 gx cv2.Sobel(image, cv2.CV_32F, 1, 0) gy cv2.Sobel(image, cv2.CV_32F, 0, 1) # 计算梯度幅值和方向 magnitude, angle cv2.cartToPolar(gx, gy, angleInDegreesTrue) angle angle % 180 # 无符号梯度 # 初始化HOG特征向量 hog_features [] # 按Cell处理 for i in range(0, image.shape[0], cell_size[0]): for j in range(0, image.shape[1], cell_size[1]): cell_mag magnitude[i:icell_size[0], j:jcell_size[1]] cell_angle angle[i:icell_size[0], j:jcell_size[1]] # 计算Cell的直方图 hist np.zeros(bins) for mag, ang in zip(cell_mag.flatten(), cell_angle.flatten()): bin_idx int(ang // (180 / bins)) hist[bin_idx] mag hog_features.append(hist) # Block归一化 hog_features np.array(hog_features) normalized_features [] for i in range(0, hog_features.shape[0] - block_size[0] 1): for j in range(0, hog_features.shape[1] - block_size[1] 1): block hog_features[i:iblock_size[0], j:jblock_size[1]].flatten() norm np.linalg.norm(block) normalized_block block / (norm 1e-5) normalized_features.extend(normalized_block) return np.array(normalized_features)HOG参数解析参数典型值作用Cell大小8×8像素局部特征的基本单元Block大小2×2 Cells归一化的空间范围方向bins9梯度方向的离散化数量重叠率50%Block之间的重叠比例3. SVM模型的训练与优化使用scikit-learn训练线性SVM时有几个关键点需要注意from sklearn.svm import LinearSVC from sklearn.model_selection import GridSearchCV # 准备训练数据 X_train [...] # HOG特征 y_train [...] # 标签 # 参数网格搜索 param_grid { C: [0.01, 0.1, 1, 10], loss: [hinge, squared_hinge], class_weight: [None, balanced] } svm GridSearchCV( LinearSVC(max_iter10000), param_grid, cv3, scoringf1, n_jobs-1 ) svm.fit(X_train, y_train) print(f最佳参数: {svm.best_params_}) print(f验证集F1分数: {svm.best_score_:.3f})SVM训练技巧数据标准化HOG特征已经过归一化通常不需要额外处理类别平衡行人检测中负样本往往远多于正样本正则化参数C控制模型复杂度与训练误差的权衡4. 在现代数据集上的性能分析将训练好的HOGSVM模型直接应用于Cityscapes数据集时我们观察到以下典型问题性能对比表指标INRIA测试集Cityscapes验证集准确率89.2%62.7%召回率85.4%58.3%F1分数0.8720.604每帧处理时间120ms480ms失败案例分析多尺度问题INRIA中行人高度集中在80-180像素范围Cityscapes中行人尺寸从20像素到400像素不等传统金字塔缩放方法计算成本过高遮挡处理# 遮挡模拟实验 def apply_occlusion(image, ratio0.3): h, w image.shape[:2] mask np.ones((h, w)) start_x np.random.randint(0, w-int(w*ratio)) start_y np.random.randint(0, h-int(h*ratio)) mask[start_y:start_yint(h*ratio), start_x:start_xint(w*ratio)] 0 return image * mask[:,:,np.newaxis]复杂背景干扰城市街景中的栏杆、树木等产生大量边缘响应传统方法难以区分语义信息5. 为什么深度学习成为必然通过对比实验我们可以清晰地看到传统方法的局限性特征表达能力对比特征类型参数量是否需要人工设计适应能力HOG固定是低CNN浅层特征1-10K否中CNN深层特征1M否高计算范式转变端到端学习传统方法特征提取→分类器→后处理深度方法原始输入→网络→最终结果多任务统一# 典型检测网络结构示例 class DetectionNet(nn.Module): def __init__(self): super().__init__() self.backbone ResNet50() self.rpn RegionProposalNetwork() self.roi_head RoIHead() def forward(self, x): features self.backbone(x) proposals self.rpn(features) detections self.roi_head(features, proposals) return detections上下文建模能力HOG只能捕捉局部形状信息CNN可以通过感受野获取全局上下文在Cityscapes上测试YOLOv3作为对比mAP达到68.5%远超HOGSVM的31.2%。这种差距在更复杂的场景中会进一步扩大。

从INRIA到Cityscapes：手把手教你用Python复现HOG+SVM，并分析它为什么输给了深度学习

最新文章

从理论到实测：全国电赛D题电路特性测试仪之输出阻抗、增益与上限频率实战解析

Qt Widget控件属性详解

手把手教你用Rock 3A开发板调试RK3568的U-Boot启动（附DDR4训练失败排查）

别再死记硬背了！一张图帮你搞定C语言fopen所有打开模式（附Windows/Linux差异）

Abaqus Cohesive单元疲劳损伤的UMAT实现与工程验证

Qwen3.5-9B-AWQ-4bit入门指南：支持中文输出的视觉大模型快速上手

推荐文章

FastAPI单元测试实战：别等上线被喷才后悔，TestClient用对了真香！盐

实战解析：Bidirectional LSTM在NLP任务中的高效应用

PID控制算法实战：如何用积分分离解决系统超调问题（附MATLAB代码）

Python asyncio 并发文件处理方案

Matlab+Ncorr：从零搭建数字图像相关分析环境

三菱FX5S PLC程序与MCGS昆仑通态触摸屏集成：伺服压力机实时监控与历史数据管理

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

【Unity MMO模板】拆解AAA级海盗MMO框架：航海、战斗与服务器架构全揭秘

T536主板的CANFD功能的使用-盈鹏飞嵌入式

CSDN技术教程｜OpenClaw 小龙虾AI v2.6.4 部署+报错排查，全程图文并茂

告别Keil：在Windows上构建VSCode+GCC+OpenOCD一体化ARM开发环境

MySQL中如何利用MD5函数加密字符串_MySQL数据加密函数

LeetCode 归并排序题解

学工管理系统官网|学工系统试用|学工一体化平台采购|学生工作管理系统选型|学生工作管理平台厂家

别再死记硬背堆积引理了！线性密码分析中的‘概率偏差’到底怎么看？

STM32调试新姿势：5分钟上手SEGGER RTT Viewer，实时查看变量和日志

传统摄影师升级AI影像生成师后商业变现能力提升

HideVolumeOSD终极指南：3步彻底隐藏Windows音量栏的完整教程

从‘油门踏板’到‘轨迹规划’：一次搞懂自动驾驶工程师日常交流中的那些‘行话’