从VGG16到VGG19：深度卷积网络的结构演进与实战搭建

张开发

• 2026/4/17 16:40:31 • 15 分钟阅读

分享文章

1. VGG系列模型的诞生与核心思想2014年牛津大学视觉几何组Visual Geometry Group提出的VGG网络在ImageNet竞赛中大放异彩。这个看似简单的网络结构背后隐藏着几个精妙的设计理念。最让我印象深刻的是它用多个小卷积核替代大卷积核的策略这个思路直到今天仍然影响着现代卷积网络的设计。我第一次尝试复现VGG16时发现它所有的卷积层都采用了3×3的小卷积核。刚开始觉得奇怪为什么不用更大的5×5或7×7卷积核呢后来仔细计算参数才发现两个3×3卷积层的堆叠其感受野相当于一个5×5卷积层但参数数量却减少了28%。三个3×3卷积层的堆叠感受野相当于7×7卷积层参数数量更是减少了45%。这种设计既保证了足够的感受野又大幅降低了计算量。2. VGG16与VGG19的结构对比2.1 网络深度与层数解析VGG16和VGG19的主要区别在于网络深度。具体来看VGG16包含13个卷积层和3个全连接层总计16层VGG19包含16个卷积层和3个全连接层总计19层我在实际项目中测试过两者的性能差异。对于224×224的输入图像VGG16在前向传播时需要约153亿次浮点运算而VGG19则需要约196亿次。虽然VGG19的准确率略高在ImageNet上top-1准确率提升约0.5%但计算代价增加了28%。2.2 关键结构参数对照下表展示了两种模型的关键配置差异结构参数VGG16VGG19卷积层数1316最大池化层数55全连接层数33参数量1.38亿1.43亿FLOPs153亿196亿值得注意的是两种模型都采用了相同的下采样策略在五个阶段后使用2×2的最大池化层步长为2。这种设计使得特征图尺寸在每经过一个阶段后减半。3. 从零搭建VGG模型的实战指南3.1 PyTorch实现详解用PyTorch搭建VGG模型时我习惯先定义一个配置字典这样可以根据需要灵活切换不同版本的VGGimport torch import torch.nn as nn cfg { VGG16: [64, 64, M, 128, 128, M, 256, 256, 256, M, 512, 512, 512, M, 512, 512, 512, M], VGG19: [64, 64, M, 128, 128, M, 256, 256, 256, 256, M, 512, 512, 512, 512, M, 512, 512, 512, 512, M] } class VGG(nn.Module): def __init__(self, vgg_name): super(VGG, self).__init__() self.features self._make_layers(cfg[vgg_name]) self.classifier nn.Sequential( nn.Linear(512*7*7, 4096), nn.ReLU(inplaceTrue), nn.Dropout(), nn.Linear(4096, 4096), nn.ReLU(inplaceTrue), nn.Dropout(), nn.Linear(4096, 1000) ) def _make_layers(self, cfg): layers [] in_channels 3 for x in cfg: if x M: layers [nn.MaxPool2d(kernel_size2, stride2)] else: layers [ nn.Conv2d(in_channels, x, kernel_size3, padding1), nn.BatchNorm2d(x), nn.ReLU(inplaceTrue) ] in_channels x return nn.Sequential(*layers)这个实现有几个关键点使用_make_layers方法动态构建卷积部分使代码更简洁所有卷积层都保持特征图尺寸不变padding1在ReLU激活函数中使用inplaceTrue节省内存3.2 TensorFlow实现技巧在TensorFlow中搭建VGG网络时我更喜欢使用Keras的函数式API这样能更清晰地看到数据流import tensorflow as tf from tensorflow.keras import layers, Model def vgg_block(x, filters, num_convs): for _ in range(num_convs): x layers.Conv2D(filters, (3,3), paddingsame)(x) x layers.BatchNormalization()(x) x layers.ReLU()(x) x layers.MaxPooling2D((2,2), strides2)(x) return x def build_vgg(input_shape(224,224,3), num_classes1000, versionVGG16): inputs layers.Input(shapeinput_shape) # 配置不同版本的VGG if version VGG16: block_config [2, 2, 3, 3, 3] else: # VGG19 block_config [2, 2, 4, 4, 4] # 特征提取部分 x vgg_block(inputs, 64, block_config[0]) x vgg_block(x, 128, block_config[1]) x vgg_block(x, 256, block_config[2]) x vgg_block(x, 512, block_config[3]) x vgg_block(x, 512, block_config[4]) # 分类部分 x layers.Flatten()(x) x layers.Dense(4096, activationrelu)(x) x layers.Dropout(0.5)(x) x layers.Dense(4096, activationrelu)(x) x layers.Dropout(0.5)(x) outputs layers.Dense(num_classes, activationsoftmax)(x) return Model(inputs, outputs)这种实现方式有三大优势通过vgg_block函数复用代码减少重复使用BatchNormalization加速训练收敛通过version参数轻松切换VGG16和VGG194. 模型训练的关键实践4.1 数据预处理的最佳实践VGG模型对输入数据有特定的预处理要求。根据我的经验正确处理图像预处理可以提升1-2%的最终准确率。对于使用ImageNet预训练权重的情况必须执行以下预处理# PyTorch示例 from torchvision import transforms train_transform transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize(mean[0.485, 0.456, 0.406], std[0.229, 0.224, 0.225]) ]) # TensorFlow示例 def preprocess_image(image): image tf.image.resize(image, [224, 224]) image tf.image.random_flip_left_right(image) image tf.keras.applications.vgg16.preprocess_input(image) return image这里有几个容易踩坑的地方均值标准化使用的三个值(0.485,0.456,0.406)对应ImageNet数据集的RGB通道均值标准差(0.229,0.224,0.225)对应各通道的标准差如果从头开始训练可以只做简单的归一化而不需要特定均值标准化4.2 训练技巧与参数配置训练VGG模型时我发现以下配置组合效果最佳# 优化器配置 optimizer torch.optim.SGD(model.parameters(), lr0.01, momentum0.9, weight_decay5e-4) # 或TensorFlow版本 optimizer tf.keras.optimizers.SGD(learning_rate0.01, momentum0.9) # 学习率调度 scheduler torch.optim.lr_scheduler.StepLR(optimizer, step_size30, gamma0.1) # 或TensorFlow版本 lr_scheduler tf.keras.callbacks.ReduceLROnPlateau(factor0.1, patience5)在实际训练中我总结出几个关键点使用带动量的SGD优化器比Adam效果更好初始学习率设置在0.01-0.1之间每30个epoch将学习率降低10倍batch size不宜过大16-32是比较理想的选择使用权重衰减(weight decay)防止过拟合5. 迁移学习的实用策略5.1 特征提取与微调VGG模型虽然参数量较大但在迁移学习中仍然表现出色。我常用的两种迁移学习策略特征提取器冻结所有卷积层只训练最后的全连接层# PyTorch实现 for param in model.features.parameters(): param.requires_grad False # TensorFlow实现 for layer in model.layers[:-3]: layer.trainable False部分微调解冻最后几个卷积块同时训练这些卷积层和分类器# 解冻最后两个卷积块 for layer in model.features[-10:]: # 大约最后两个block layer.requires_grad True5.2 实际应用中的调整建议在小数据集上使用VGG时我通常会做以下调整去掉最后一个全连接层4096维替换为适合新任务大小的层添加Dropout层防止过拟合dropout rate设置在0.5左右如果数据量非常少可以考虑使用全局平均池化替代全连接层# 修改分类头示例 model.classifier nn.Sequential( nn.Linear(512*7*7, 1024), nn.ReLU(), nn.Dropout(0.5), nn.Linear(1024, num_classes) )在医疗影像项目中使用这种调整后的VGG16我在仅有3000张图像的数据集上达到了92%的准确率证明了其强大的特征提取能力。

更多文章

前端开发 2026/4/17 16:40:07

ExoPlayer LL-DASH终极实践：从30秒到2秒的直播延迟革命

ExoPlayer LL-DASH终极实践：从30秒到2秒的直播延迟革命【免费下载链接】ExoPlayer This project is deprecated and stale. The latest ExoPlayer code is available in https://github.com/androidx/media 项目地址: https://gitcode.com/gh_mirrors/ex/ExoPlay…

ESP32蓝牙串口通信实战：手机与开发板无线交互全指南蓝牙技术早已不是新鲜事物，但直到ESP32这类高性价比芯片的出现，才真正让无线通信变得触手可及。想象一下：当你调试温湿度传感器时，不再需要拖着数据线在实验室来回奔…

张开发

前端开发 2026/4/17 16:16:59

现在不掌握AI文档生成，半年后将失去API交付话语权：2026奇点大会定义的3类工程师能力断层

第一章：2026奇点智能技术大会：AI接口文档生成 2026奇点智能技术大会(https://ml-summit.org) 技术背景与行业痛点随着微服务架构和API经济的深度演进，企业平均每年新增API数量超过1200个，但其中67%缺乏及时、准确、可执行的文档…

张开发

从VGG16到VGG19：深度卷积网络的结构演进与实战搭建

最新文章

小程序渗透干货、常见登录绕过Web接口速通与挖掘思路

DeepLabv3+魔改指南：如何为你的分割任务定制Backbone（ResNet/Xception实战）

OpenClaw人人养虾：openclaw hooks

AI辅助排版：设计领域的应用方法与落地实践

Swift学习笔记25-函数式编程

【2026年最新600套毕设项目分享】基于微信小程序的影院选座系统（30086）

推荐文章

FastAPI单元测试实战：别等上线被喷才后悔，TestClient用对了真香！盐

实战解析：Bidirectional LSTM在NLP任务中的高效应用

PID控制算法实战：如何用积分分离解决系统超调问题（附MATLAB代码）

Python asyncio 并发文件处理方案

Matlab+Ncorr：从零搭建数字图像相关分析环境

三菱FX5S PLC程序与MCGS昆仑通态触摸屏集成：伺服压力机实时监控与历史数据管理

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

ExoPlayer LL-DASH终极实践：从30秒到2秒的直播延迟革命

终极指南：5步快速掌握VRChat动画工具，实现虚拟形象手势管理高效创作

5分钟掌握IDE Eval Resetter：JetBrains试用期无限重置完整指南

GTE中文-large镜像免配置优势：内置ModelScope缓存机制，首次加载后秒级响应

保姆级教程：在Ubuntu 20.04上搞定PX4仿真，从MAVROS安装到Gazebo起飞

如何免费搭建你的专属游戏串流服务器：Sunshine终极指南

Java Fork/Join框架：并行编程的高效利器

华为云 TaurusDB、阿里云 PolarDB 和亚马逊 AWS Aurora云数据库对比

人大团队颠覆传统搜索：让AI智能体来训练搜索系统效果提升近30%

图解80x86中断门与陷阱门：结合Pintos源码看IDT描述符的DPL特权级实战

告别数据线！用ESP32蓝牙串口和手机App轻松互传数据（保姆级教程）

现在不掌握AI文档生成，半年后将失去API交付话语权：2026奇点大会定义的3类工程师能力断层