【Windows10实战】PyTorch版DeepLabV3+：从零到一完成自定义数据集训练与部署

张开发

• 2026/4/7 22:55:01 • 15 分钟阅读

分享文章

【Windows10实战】PyTorch版DeepLabV3+：从零到一完成自定义数据集训练与部署

1. 环境准备搭建Windows10下的PyTorch开发环境在Windows10上跑深度学习项目最头疼的就是环境配置。我当初第一次尝试时光是CUDA和cuDNN的版本匹配就折腾了一整天。不过别担心跟着我的步骤来保证你能少踩坑。首先需要安装Python3.7推荐使用Anaconda来管理环境。打开Anaconda Prompt创建一个专门的环境conda create -n deeplab python3.7 conda activate deeplab接下来安装PyTorch 1.2版本。这里有个小技巧如果你的显卡是NVIDIA的一定要先确认CUDA版本。我的GTX 2070用的是CUDA 10.1所以安装命令是pip install torch1.8.1cu101 torchvision0.9.1cu101 -f https://download.pytorch.org/whl/torch_stable.html安装完成后别忘了验证GPU是否可用import torch print(torch.cuda.is_available()) # 应该返回True其他依赖库可以通过以下命令一次性安装pip install numpy opencv-python pillow matplotlib tqdm我建议使用PyCharm作为IDE它的Terminal集成和代码提示对深度学习项目特别友好。记得在PyCharm中设置好Python解释器路径指向刚才创建的conda环境。2. 数据准备制作VOC格式的自定义数据集语义分割项目最耗时的部分往往是数据准备。我做过发票识别、医疗影像分割等多个项目发现LabelMe是最适合新手的标注工具。首先安装LabelMepip install labelme启动LabelMe后对每张图片进行多边形标注。完成后会生成一堆.json文件。接下来需要把这些标注转换为VOC格式的mask图片。我写了个批量转换脚本import json import os import numpy as np from PIL import Image def json_to_mask(json_path, output_dir): os.makedirs(output_dir, exist_okTrue) with open(json_path) as f: data json.load(f) mask np.zeros((data[imageHeight], data[imageWidth]), dtypenp.uint8) for shape in data[shapes]: points np.array(shape[points], dtypenp.int32) cv2.fillPoly(mask, [points], 1) # 假设是二分类问题 Image.fromarray(mask*255).save(os.path.join(output_dir, os.path.basename(json_path).replace(.json,.png))) # 批量处理 for json_file in os.listdir(json_dir): json_to_mask(fjson_dir/{json_file}, SegmentationClass)数据集目录结构应该如下VOCdevkit/ └── VOC2007/ ├── JPEGImages/ # 存放原始图片 ├── SegmentationClass/ # 存放mask图片 └── ImageSets/ └── Segmentation/ # 存放train.txt, val.txt等在ImageSets/Segmentation/下创建train.txt和val.txt每行一个文件名不带扩展名比如img_001 img_0023. 代码配置适配自定义数据集从GitHub克隆deeplab-pytorch代码后需要进行几处关键修改首先在mypath.py中添加你的数据集路径class MyPath: staticmethod def db_root_dir(database): if database invoice: # 你的数据集名称 return H:/VOCdevkit/invoice # 改成你的实际路径 else: raise NotImplementedError然后在dataloaders/datasets/下创建你的数据集文件如invoice.py可以直接复制pascal.py并修改class InvoiceSegmentation(data.Dataset): NUM_CLASSES 2 # 背景目标类别 def __init__(self, args, splittrain): self.split split self.args args self.images [] self.masks [] with open(os.path.join(mypath.db_root_dir(invoice), ImageSets/Segmentation, split .txt), r) as f: lines f.read().splitlines() for ii, line in enumerate(lines): _image os.path.join(mypath.db_root_dir(invoice), JPEGImages, line .jpg) _mask os.path.join(mypath.db_root_dir(invoice), SegmentationClass, line .png) self.images.append(_image) self.masks.append(_mask)还需要修改dataloaders/utils.py添加你的类别颜色映射def get_invoice_labels(): return np.array([ [0, 0, 0], # 背景(黑色) [128, 0, 0], # 目标类别(深红色) ])最后在dataloaders/init.py中注册你的数据集if invoice in args.dataset: from dataloaders.datasets import invoice train_set invoice.InvoiceSegmentation(args, splittrain) val_set invoice.InvoiceSegmentation(args, splitval)4. 模型训练选择合适的backbone与调参技巧DeepLabV3支持多种backbone我实测下来在不同硬件上的表现Backbone参数量显存占用mIOU适合场景ResNet5039M6GB78.2高精度需求MobileNetV25.4M2.1GB72.1快速迭代Xception41M8.3GB79.5研究用途对于大多数实际项目我建议从MobileNetV2开始python train.py --dataset invoice --backbone mobilenet --lr 0.007 --epochs 50 --batch-size 8 --gpu-ids 0几个关键参数经验值学习率(lr)0.007适合MobileNetResNet建议0.01batch_size根据显存调整保持至少4以上epochs简单数据集50足够复杂场景可到100workersWindows下设为0避免共享内存问题训练过程中会遇到一些常见问题Loss不下降检查学习率是否太小数据标注是否正确GPU显存不足减小batch_size或使用更小的backbone验证集指标波动大增加batch_size或使用SyncBN我习惯用TensorBoard监控训练过程tensorboard --logdir runs/5. 模型测试与部署实战训练完成后我们需要测试模型效果。原仓库没有提供demo脚本我自己写了一个增强版的测试代码def visualize_results(image_path, mask_path, output_path): 可视化原始图片、真实mask和预测结果的对比 fig, (ax1, ax2, ax3) plt.subplots(1, 3, figsize(15,5)) # 原始图片 img Image.open(image_path).convert(RGB) ax1.imshow(img) ax1.set_title(Original Image) # 真实mask true_mask Image.open(mask_path) ax2.imshow(true_mask, cmapjet) ax2.set_title(Ground Truth) # 预测结果 pred_mask Image.open(output_path) ax3.imshow(pred_mask, cmapjet) ax3.set_title(Prediction) plt.savefig(comparison.png, bbox_inchestight)测试命令示例python demo.py --in-path test_images --ckpt runs/invoice/deeplab-mobilenet/model_best.pth.tar --backbone mobilenet对于实际部署我推荐将模型转换为TorchScript格式model DeepLab(num_classes2, backbonemobilenet) checkpoint torch.load(model_best.pth.tar) model.load_state_dict(checkpoint[state_dict]) model.eval() # 转换为TorchScript example torch.rand(1, 3, 513, 513) traced_script_module torch.jit.trace(model, example) traced_script_module.save(deeplabv3_mobilenet.pt)在Windows平台上部署时注意以下几点使用OpenCV的DNN模块加载模型时需要额外处理输出格式对于实时应用可以考虑将模型量化为INT8提升速度如果使用Flask等Web框架注意设置合适的worker数量6. 性能优化与高级技巧经过几个项目的实战我总结出一些提升模型效果的技巧数据增强策略在dataloaders/custom_transforms.py中添加更适合你数据集的增强tr.RandomScale((0.5, 2.0)), # 尺度缩放 tr.RandomRotate(30), # 旋转 tr.ColorJitter(brightness0.5, contrast0.5, saturation0.5), # 颜色扰动 tr.RandomGaussianBlur(), # 高斯模糊类别不平衡处理在train.py中修改损失函数from torch.nn import CrossEntropyLoss # 假设背景像素是目标像素的10倍 weight torch.tensor([1.0, 10.0]).cuda() criterion CrossEntropyLoss(weightweight)学习率调度使用余弦退火热重启from torch.optim.lr_scheduler import CosineAnnealingWarmRestarts scheduler CosineAnnealingWarmRestarts(optimizer, T_010, T_mult2)混合精度训练可以显著减少显存占用from torch.cuda.amp import autocast, GradScaler scaler GradScaler() with autocast(): outputs model(inputs) loss criterion(outputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()对于边缘设备部署可以考虑使用TensorRT加速# 转换ONNX格式 torch.onnx.export(model, dummy_input, model.onnx, input_names[input], output_names[output], dynamic_axes{input: {0: batch}, output: {0: batch}}) # 然后用TensorRT转换ONNX到engine # trtexec --onnxmodel.onnx --saveEnginemodel.engine --fp16

更多文章

前端开发 2026/4/7 22:52:36

从零到一：ESP32-S3构建端侧语音AI助手的全链路实践

1. ESP32-S3语音AI助手硬件选型指南第一次接触ESP32-S3做语音交互时，我在硬件选型上踩过不少坑。这块芯片虽然性能强悍，但搭配不当的周边硬件会让整个项目事倍功半。经过三个项目的实战验证，我总结出这套性价比最高的硬件组合方案。核心器件…

Elasticsearch RTF多语言支持：中文、日文、韩文等多语言搜索配置终极指南【免费下载链接】elasticsearch-rtf elasticsearch中文发行版，针对中文集成了相关插件，方便新手学习测试. 项目地址: https://gitcode.com/gh_mirrors/el/elasticse…

张开发

前端开发 2026/4/7 22:28:52

Active Directory数据库狩猎：SQL Server攻击技术详解

Active Directory数据库狩猎：SQL Server攻击技术详解【免费下载链接】Active-Directory-Exploitation-Cheat-Sheet A cheat sheet that contains common enumeration and attack methods for Windows Active Directory. 项目地址: https://gitcode.com/gh_mirror…

张开发

【Windows10实战】PyTorch版DeepLabV3+：从零到一完成自定义数据集训练与部署

最新文章

终极指南：Helix Toolkit - 专业级.NET 3D图形框架完全解析

【2026最新】论文降AI工具怎么选？10款全网热门软件实测红黑榜（附退稿自救攻略）

零门槛掌握《经济研究》LaTeX模板：从排版小白到学术专家的蜕变指南

终极指南：如何通过ComfyUI-Custom-Scripts大幅提升AI绘画工作效率

NTC热敏电阻测温原理与电路设计实战

如何构建一个企业级MCP服务器：实战架构与最佳实践

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

从零到一：ESP32-S3构建端侧语音AI助手的全链路实践

如何打造“能执行任务”的 Agent，而不是会聊天的模型

做《全面战争》类战斗？这个Unity插件直接帮你搞定

带头结点单链表完整实现（增删改查 + 清空销毁）

跨越山海：软件测试团队同步挑战与高效协同之道

STM32H7实战：用CubeMX动态切换主频（72M到16M）的保姆级避坑指南

实例】四相机测量项目源码使用海康SDK及C#+halcon实现的通俗易懂教程：连接相机、模板匹...

2026年文档生成工具榜单：8 款实力派工具，效率与体验双优

短剧小程序三端互通：微信 / 抖音 / 快手数据同步，会员一键通用

智能调控：华硕笔记本散热优化与风扇转速调节全攻略

Elasticsearch RTF多语言支持：中文、日文、韩文等多语言搜索配置终极指南

Active Directory数据库狩猎：SQL Server攻击技术详解