UAVid数据集实战：从数据准备到PyTorch数据加载器构建

张开发

• 2026/4/18 0:57:34 • 15 分钟阅读

分享文章

1. UAVid数据集详解与下载指南UAVid是目前无人机遥感图像领域最常用的语义分割数据集之一专门针对城市场景设计。这个数据集包含了4K分辨率的无人机航拍视频帧覆盖了8种常见的城市物体类别比如建筑物、道路、车辆等。我在实际项目中多次使用这个数据集发现它的标注质量相当不错特别适合训练高精度的语义分割模型。数据集的文件结构设计很有讲究下载后你会看到一个名为UAVidDataset的根目录里面包含train、valid等子目录。每个序列文件夹下都有Images和Labels两个子文件夹这种结构对后续的数据加载非常友好。官方下载地址是https://uavid.nl/实测下载速度还不错建议使用IDM等多线程下载工具来加速。下载完成后我建议先快速浏览一下数据集内容。你会发现图像都是3840×2160的分辨率这个尺寸直接用于训练会非常吃显存所以后续我们会进行下采样。标签图像采用了特殊的颜色编码每个颜色对应一个语义类别这也是为什么我们需要进行标签转换的原因。2. 数据集预处理与标签转换实战2.1 文件结构规范化第一步要确保文件结构完全正确。我遇到过不少同学因为目录结构不对导致后续步骤报错的情况。正确的结构应该是UAVidDataset/ ├── train/ │ ├── seq1/ │ │ ├── Images/ │ │ └── Labels/ │ └── ...其他序列 └── valid/ ├── seq16/ │ ├── Images/ │ └── Labels/ └── ...其他序列如果下载的文件名不是这样需要手动重命名。这里有个小技巧可以用Python的os.rename()批量修改比手动操作效率高很多。2.2 标签转换工具使用官方提供的UAVidToolKit是处理标签的关键工具。安装步骤很简单git clone https://github.com/YeLyuUT/UAVidToolKit.git cd UAVidToolKit python setup.py build_ext --inplace转换标签时要注意输出目录的权限问题。我建议在UAVidDataset目录下新建一个labelimg文件夹来存放转换后的标签python UAVidToolKit/prepareTrainIdFiles.py -s train/ -t labelimg/train/ python UAVidToolKit/prepareTrainIdFiles.py -s valid/ -t labelimg/valid/转换完成后建议用OpenCV快速检查一下标签图像是否正常。有时候会因为颜色映射问题导致标签错误这时候就需要重新转换。3. PyTorch数据加载器深度解析3.1 自定义Dataset类设计PyTorch的数据加载核心是继承torch.utils.data.Dataset类。我们的DatasetTrain需要实现三个关键方法init初始化路径和参数getitem返回单条数据len返回数据集大小这里有个重要细节原始图像尺寸太大我们需要统一缩放到1536×1536。这个尺寸在保持足够细节的同时也能在大多数显卡上运行。class DatasetTrain(torch.utils.data.Dataset): def __init__(self, uavid_data_path, uavid_meta_path): self.img_dir uavid_data_path /train/ self.label_dir uavid_meta_path /labelimg/train/ self.img_h 2160 self.img_w 3840 self.new_img_h 1536 self.new_img_w 1536 self.examples [] # 省略部分初始化代码...3.2 数据增强策略实现我们实现了三种数据增强方式随机翻转50%概率水平翻转随机缩放在0.7-2.0倍之间随机缩放随机裁剪最终裁剪为768×768的patch# 随机翻转实现 flip np.random.randint(low0, high2) if flip 1: img cv2.flip(img, 1) label_img cv2.flip(label_img, 1) # 随机缩放实现 scale np.random.uniform(low0.7, high2.0) new_img_h int(scale*self.new_img_h) new_img_w int(scale*self.new_img_w) img cv2.resize(img, (new_img_w, new_img_h), interpolationcv2.INTER_NEAREST)特别注意标签图像必须使用INTER_NEAREST插值否则会引入无效的类别值。4. 验证集处理与调试技巧验证集的处理略有不同我们不应用任何数据增强但要保持与训练集相同的预处理流程。验证集的输出尺寸我建议设为768×768这样在评估时速度更快。class DatasetVal(torch.utils.data.Dataset): def __init__(self, uavid_data_path, uavid_meta_path): self.img_dir uavid_data_path /valid/ self.label_dir uavid_meta_path /labelimg/valid/ self.img_h 2160 self.img_w 3840 self.new_img_h 768 self.new_img_w 768 # 省略部分初始化代码...调试时建议使用cv2.imshow()可视化增强后的图像和标签确保它们保持对齐。我在初期就发现过因为插值方法不对导致标签错位的问题所以特别强调这一点。数据归一化使用ImageNet的均值和标准差这是使用预训练模型的常见做法img img/255.0 img img - np.array([0.485, 0.456, 0.406]) img img/np.array([0.229, 0.224, 0.225])最后将numpy数组转换为torch张量时要注意数据类型。float32是最常用的既能保证精度又不会占用过多内存。

更多文章

前端开发 2026/4/18 0:56:28

从‘心跳’到‘急停’：图解CANopen CIA 402状态机，让你的电机控制逻辑不再混乱

从‘心跳’到‘急停’：图解CANopen CIA 402状态机，让你的电机控制逻辑不再混乱在工业自动化领域，电机控制的稳定性和可靠性直接影响着整个系统的性能。CANopen协议作为工业通信的主流标准之一，其CIA 402子协议专门为电机控制定义…

漫画迷的离线宝库：一键构建你的私人漫画图书馆【免费下载链接】comics-downloader tool to download comics and manga in pdf/epub/cbr/cbz from a website 项目地址: https://gitcode.com/gh_mirrors/co/comics-downloader 还在为网络不稳定无法畅快阅读漫…

张开发

前端开发 2026/4/18 0:29:09

如何彻底清理显卡驱动残留：DDU一键式系统驱动深度清理完全指南

如何彻底清理显卡驱动残留：DDU一键式系统驱动深度清理完全指南【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-unin…

张开发

UAVid数据集实战：从数据准备到PyTorch数据加载器构建

最新文章

深入解析OpenStack八大核心组件及其应用场景

python bump2version

深入4G电子围栏技术核心：从IMSI诱捕到虚拟基站，一份给开发者的原理拆解指南

Claude Opus 4.7 深夜发布：AI 一夜干完数月工程量，每个 AI 工程师都该警觉的 6 个信号

【GPU存储架构与CUDA编程实战】从寄存器到显存：性能调优的存储层次全景解析

中山企业主离婚财产保全律师

推荐文章

FastAPI单元测试实战：别等上线被喷才后悔，TestClient用对了真香！盐

实战解析：Bidirectional LSTM在NLP任务中的高效应用

PID控制算法实战：如何用积分分离解决系统超调问题（附MATLAB代码）

Python asyncio 并发文件处理方案

Matlab+Ncorr：从零搭建数字图像相关分析环境

三菱FX5S PLC程序与MCGS昆仑通态触摸屏集成：伺服压力机实时监控与历史数据管理

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

从‘心跳’到‘急停’：图解CANopen CIA 402状态机，让你的电机控制逻辑不再混乱

LX Music桌面版：三大痛点解决方案，让你的音乐体验焕然一新

2023-阿里云云效Maven私有仓库实战：从零开始部署团队共享jar包

DBeaver实战：从零安装到高效连接多数据库

Windows 10 + VS2019 保姆级教程：从零编译PaddleOCR C++ CPU推理库（含中文乱码解决方案）

企业级自动化测试架构设计：Chrome for Testing 实现30%测试效率提升的完整方案

为什么你的Copilot总“写偏”？揭秘LLM提示工程×IDE语义感知的4层对齐机制

AI应用搜索流量归零前的最后72小时：一线技术团队已启动的5步紧急复苏协议（含Prompt+Schema+Embedding三重校准）

手把手教你用C语言给STM32单片机移植Modbus RTU从站（附完整源码）

2025届必备的十大AI科研工具推荐

漫画迷的离线宝库：一键构建你的私人漫画图书馆

如何彻底清理显卡驱动残留：DDU一键式系统驱动深度清理完全指南

UAVid数据集实战：从数据准备到PyTorch数据加载器构建

最新文章

深入解析OpenStack八大核心组件及其应用场景

python bump2version

深入4G电子围栏技术核心：从IMSI诱捕到虚拟基站，一份给开发者的原理拆解指南

Claude Opus 4.7 深夜发布：AI 一夜干完数月工程量，每个 AI 工程师都该警觉的 6 个信号

【GPU存储架构与CUDA编程实战】从寄存器到显存：性能调优的存储层次全景解析

中山企业主离婚 财产保全律师

推荐文章

FastAPI单元测试实战：别等上线被喷才后悔，TestClient用对了真香！盐

实战解析：Bidirectional LSTM在NLP任务中的高效应用

PID控制算法实战：如何用积分分离解决系统超调问题（附MATLAB代码）

Python asyncio 并发文件处理方案

Matlab+Ncorr：从零搭建数字图像相关分析环境

三菱FX5S PLC程序与MCGS昆仑通态触摸屏集成：伺服压力机实时监控与历史数据管理

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

中山企业主离婚财产保全律师