【腾讯拥抱开源】MotionCrafter: 使用4D变分自编码器进行密集几何与运动重建

张开发
2026/4/11 17:12:07 15 分钟阅读

分享文章

【腾讯拥抱开源】MotionCrafter: 使用4D变分自编码器进行密集几何与运动重建
我们推出MotionCrafter——首个基于视频扩散的框架可联合重建4D几何并估计稠密物体运动。该框架以单目视频为输入在共享世界坐标系中同步预测每帧的稠密点云图和场景流且无需任何后优化处理。若MotionCrafter对您有帮助请为项目⭐加星这对开源项目至关重要。感谢支持 快速开始️ 安装克隆本仓库:gitclone https://github.com/TencentARC/MotionCrafter安装依赖项请参考requirements.txtpipinstall-rrequirements.txt 推理使用我们的默认模型运行推理代码python run.py\--video_pathexamples/video.mp4\--save_folderexamples_output使用你自己的模型运行推理代码python run.py\--video_pathexamples/video.mp4\--save_folderexamples_output\--cache_dirworkspace/pretrained_models\--unet_pathpath/to/your/unet\--vae_pathpath/to/your/vae\--model_typedeterm\--height320--width640\--adjust_resolutionTrue\--num_frames25--model_type可以是determ或diff。 可视化使用Viser可视化预测的点云图和场景流python visualize/visualize.py\--video_pathexamples/video.mp4\--data_pathexamples_output/video.npz 评估我们在 evaluation 目录下提供了一套完整的评估流程包括指标定义evaluation/metrics.py单数据集评估器evaluation/eval.py数据集预处理脚本evaluation/preprocess使用世界空间预测运行评估python evaluation/eval.py\--gt_data_dirworkspace/benchmark_datasets/Virtual_KITTI_2_video\--pred_data_dirworkspace/benchmark_outputs/MotionCrafter/Virtual_KITTI_2_video\--use_normed_data\--is_pred_world_map有关详细的数据约定、预处理命令和输出格式请参阅 evaluation/README.md。 训练自己的模型数据集准备要训练MotionCrafter模型您应按照DATASET.md下载训练数据集并按照datasets/preprocess/README.md处理数据。或者您可以按如下方式准备自己的数据DATASET_NAME ├── SCENE_NAME_1 │ ├── xxxx.hdf5 │ ├── xxxx.mp4 ├── SCENE_NAME_2 │ ├── xxxx.hdf5 │ ├── xxxx.mp4 └── meta_infos.txtxxxx.mp4是处理后的视频xxxx.hdf5是处理后的标注数据包含点云映射T x H x W x 3以相机为中心的xyz坐标。 相机位姿T x 4 x 4相机外参矩阵。 有效掩码T x H x W点云映射的有效区域标记。 场景流可选T x H x W x 3以相机为中心的dx dy dz位移量。 形变掩码可选T x H x W场景流的有效区域标记。模型训练首先我们训练几何变分自编码器bashscripts/launch.sh configs/vae_train/geometry_vae_train.gin然后我们将预训练的几何VAE结合起来训练统一的4D VAEbashscripts/launch.sh configs/vae_train/unify_4d_vae_train.gin最后我们通过预训练的统一4D VAE来训练Diffusion Unet模型。# Deterministic Versionbashscripts/launch.sh configs/unet_train/unet_determ_unify_vae_train.gin# Diffusion Versionbashscripts/launch.sh configs/unet_train/unet_diffusion_unify_vae_train.gin 引用如果您觉得我们的工作有帮助请引用article{zhu2025motioncrafter, title{MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE}, author{Zhu, Ruijie and Lu, Jiahao and Hu, Wenbo and Han, Xiaoguang and Cai, Jianfei and Shan, Ying and Zheng, Chuanxia}, journal{arXiv preprint arXiv:2602.08961}, year{2026} } 致谢我们的代码基于 GeometryCrafter 实现。感谢天行提供优秀的代码库

更多文章