【腾讯拥抱开源】MotionCrafter: 使用4D变分自编码器进行密集几何与运动重建

张开发

• 2026/4/11 17:12:07 • 15 分钟阅读

分享文章

【腾讯拥抱开源】MotionCrafter: 使用4D变分自编码器进行密集几何与运动重建

我们推出MotionCrafter——首个基于视频扩散的框架可联合重建4D几何并估计稠密物体运动。该框架以单目视频为输入在共享世界坐标系中同步预测每帧的稠密点云图和场景流且无需任何后优化处理。若MotionCrafter对您有帮助请为项目⭐加星这对开源项目至关重要。感谢支持快速开始️ 安装克隆本仓库:gitclone https://github.com/TencentARC/MotionCrafter安装依赖项请参考requirements.txtpipinstall-rrequirements.txt 推理使用我们的默认模型运行推理代码python run.py\--video_pathexamples/video.mp4\--save_folderexamples_output使用你自己的模型运行推理代码python run.py\--video_pathexamples/video.mp4\--save_folderexamples_output\--cache_dirworkspace/pretrained_models\--unet_pathpath/to/your/unet\--vae_pathpath/to/your/vae\--model_typedeterm\--height320--width640\--adjust_resolutionTrue\--num_frames25--model_type可以是determ或diff。可视化使用Viser可视化预测的点云图和场景流python visualize/visualize.py\--video_pathexamples/video.mp4\--data_pathexamples_output/video.npz 评估我们在 evaluation 目录下提供了一套完整的评估流程包括指标定义evaluation/metrics.py单数据集评估器evaluation/eval.py数据集预处理脚本evaluation/preprocess使用世界空间预测运行评估python evaluation/eval.py\--gt_data_dirworkspace/benchmark_datasets/Virtual_KITTI_2_video\--pred_data_dirworkspace/benchmark_outputs/MotionCrafter/Virtual_KITTI_2_video\--use_normed_data\--is_pred_world_map有关详细的数据约定、预处理命令和输出格式请参阅 evaluation/README.md。训练自己的模型数据集准备要训练MotionCrafter模型您应按照DATASET.md下载训练数据集并按照datasets/preprocess/README.md处理数据。或者您可以按如下方式准备自己的数据DATASET_NAME ├── SCENE_NAME_1 │ ├── xxxx.hdf5 │ ├── xxxx.mp4 ├── SCENE_NAME_2 │ ├── xxxx.hdf5 │ ├── xxxx.mp4 └── meta_infos.txtxxxx.mp4是处理后的视频xxxx.hdf5是处理后的标注数据包含点云映射T x H x W x 3以相机为中心的xyz坐标。相机位姿T x 4 x 4相机外参矩阵。有效掩码T x H x W点云映射的有效区域标记。场景流可选T x H x W x 3以相机为中心的dx dy dz位移量。形变掩码可选T x H x W场景流的有效区域标记。模型训练首先我们训练几何变分自编码器bashscripts/launch.sh configs/vae_train/geometry_vae_train.gin然后我们将预训练的几何VAE结合起来训练统一的4D VAEbashscripts/launch.sh configs/vae_train/unify_4d_vae_train.gin最后我们通过预训练的统一4D VAE来训练Diffusion Unet模型。# Deterministic Versionbashscripts/launch.sh configs/unet_train/unet_determ_unify_vae_train.gin# Diffusion Versionbashscripts/launch.sh configs/unet_train/unet_diffusion_unify_vae_train.gin 引用如果您觉得我们的工作有帮助请引用article{zhu2025motioncrafter, title{MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE}, author{Zhu, Ruijie and Lu, Jiahao and Hu, Wenbo and Han, Xiaoguang and Cai, Jianfei and Shan, Ying and Zheng, Chuanxia}, journal{arXiv preprint arXiv:2602.08961}, year{2026} } 致谢我们的代码基于 GeometryCrafter 实现。感谢天行提供优秀的代码库

更多文章

前端开发 2026/4/11 17:09:30

【SITS2026官方技术白皮书级解读】：大模型推理延迟降低63%的5大工业级优化范式

第一章：SITS2026技术白皮书核心定位与工业落地价值 2026奇点智能技术大会(https://ml-summit.org) 面向高确定性工业场景的技术范式跃迁 SITS2026并非通用AI框架的延伸，而是专为严苛工业环境设计的“可验证智能系统”（Verifiable Intellige…

张开发

前端开发 2026/4/11 17:08:36

Pytorch图像处理秘籍：利用make_grid和save_image生成专业级雪碧图教程

PyTorch图像处理进阶：make_grid与save_image的高效雪碧图生成实战在计算机视觉项目的开发流程中，可视化中间结果和批量图像数据是调试模型、分析性能的关键环节。传统方法需要将张量转换为NumPy数组再保存为图片，不仅步骤繁琐，在…

张开发

前端开发 2026/4/11 17:08:29

千问3.5-2B图文理解实战：从原始图输入到结构化JSON输出的完整数据管道设计

千问3.5-2B图文理解实战：从原始图输入到结构化JSON输出的完整数据管道设计 1. 项目背景与模型介绍千问3.5-2B是Qwen系列中的小型视觉语言模型，专为图片理解与文本生成任务设计。这个开箱即用的解决方案让开发者能够快速构建基于图像理解的智能应用&am…

张开发

前端开发 2026/4/11 17:07:17

别再傻傻分不清MCU和MPU了！从智能家居到无人机，聊聊嵌入式芯片该怎么选

从智能家居到无人机：嵌入式芯片选型实战指南当你第一次打开淘宝搜索"开发板"时，上万种型号瞬间淹没视线——STM32、ESP32、树莓派Pico、全志H616…这些字母数字组合背后，隐藏着影响项目成败的关键选择。去年有个做智能花盆的团队…

张开发

前端开发 2026/4/11 17:06:28

【零基础入门】3步完成DeepSeek API密钥配置与Python调用，附避坑指南！

1. 为什么你需要DeepSeek API？ 如果你正在寻找一个既强大又实惠的AI大模型API，DeepSeek绝对值得考虑。作为一个国产大模型，它在中文处理方面有着天然优势，而且价格比GPT-4亲民不少。我实测下来，它的响应速度非常快&…

张开发

前端开发 2026/4/11 17:05:34

CentOS 7 等保测评踩坑记：手把手教你用脚本升级OpenSSH到9.6p1（附完整回滚方案）

CentOS 7 等保合规实战：OpenSSH 9.6p1 升级全流程与风险控制手册当企业服务器面临等保测评时，OpenSSH 版本漏洞往往是高频整改项。去年某金融客户就因 SSH 弱版本导致测评扣分，最终通过系统化升级方案在复测中获得满分。本文将分享从沙箱测试…

张开发

前端开发 2026/4/11 17:03:21

DDrawCompat终极指南：让DirectX老游戏在现代Windows上焕发新生

DDrawCompat终极指南：让DirectX老游戏在现代Windows上焕发新生【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_mirrors/d…

张开发