2.1 vLLM-Omni + Wan2.1-T2V-1.3B测试数据

张开发

• 2026/5/20 23:20:27 • 15 分钟阅读

分享文章

机器npu-smi info------------------------------------------------------------------------------------------------ | npu-smi 24.1.0 Version: 24.1.0 | ---------------------------------------------------------------------------------------------- | NPU Name | Health | Power(W) Temp(C) Hugepages-Usage(page)| | Chip | Bus-Id | AICore(%) Memory-Usage(MB) HBM-Usage(MB) | | 0 910B3 | OK | 95.2 43 0 / 0 | | 0 | 0000:C1:00.0 | 0 0 / 0 3874 / 65536 | | 1 910B3 | OK | 90.3 42 0 / 0 | | 0 | 0000:C2:00.0 | 0 0 / 0 50449/ 65536 | | 2 910B3 | OK | 90.6 43 0 / 0 | | 0 | 0000:81:00.0 | 0 0 / 0 3404 / 65536 | | 3 910B3 | OK | 94.1 44 0 / 0 | | 0 | 0000:82:00.0 | 0 0 / 0 3405 / 65536 | | 4 910B3 | OK | 96.6 47 0 / 0 | | 0 | 0000:01:00.0 | 0 0 / 0 44930/ 65536 | | 5 910B3 | OK | 92.0 44 0 / 0 | | 0 | 0000:02:00.0 | 0 0 / 0 7206 / 65536 | | 6 910B3 | OK | 100.3 46 0 / 0 | | 0 | 0000:41:00.0 | 0 0 / 0 3389 / 65536 | | 7 910B3 | OK | 95.5 47 0 / 0 | | 0 | 0000:42:00.0 | 0 0 / 0 59668/ 65536 | 单卡单实例export ASCEND_RT_VISIBLE_DEVICES2 export VLLM_WORKER_MULTIPROC_METHODspawn source /usr/local/Ascend/ascend-toolkit/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh vllm-omni serve /data/models/Wan2.1-T2V-1.3B-Diffusers \ --omni --port 8023 --boundary-ratio 0.875 \ --flow-shift 5.0 --cfg-parallel-size 2 --dtype float16 curl -X POST http://localhost:8023/v1/videos/sync \ -F promptA futuristic city at sunset \ -F width832 \ -F height480 \ -F num_frames81 \ -F fps16 \ -F num_inference_steps50 \ -F guidance_scale4.0 \ -F seed42 \ -o /data/cjh/omini/server_test3.mp4 耗时6min双卡单实例export ASCEND_RT_VISIBLE_DEVICES2,3 export VLLM_WORKER_MULTIPROC_METHODspawn export CFG_PARALLEL_SIZE2 source /usr/local/Ascend/ascend-toolkit/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh vllm-omni serve /data/models/Wan2.1-T2V-1.3B-Diffusers \ --omni --port 8023 --boundary-ratio 0.875 \ --flow-shift 5.0 --cfg-parallel-size 2 --dtype float16 curl -X POST http://localhost:8023/v1/videos/sync \ -F promptA futuristic city at sunset \ -F width832 \ -F height480 \ -F num_frames81 \ -F fps16 \ -F num_inference_steps50 \ -F guidance_scale4.0 \ -F seed42 \ -o /data/cjh/omini/server_test3.mp4 耗时3min模型并行策略优化https://docs.vllm.com.cn/projects/vllm-omni/en/latest/user_guide/diffusion/parallelism_acceleration/#overview模型并行测试结论wan2.1 不支持 Ring / USP 长序列长视频作用减少单卡显存占用序列越长加速越明显支持 CFG-Parallel 固定2卡速度×2质量不变作用 CFG引导分支并行扩散模型每步要跑两次guidance分支无guidance分支 CFG-Parallel 让两个分支同时跑在不同GPU上结果等价于串行50步但时间减半并发建议请求并发数AsyncOmniDiffusion initialized with model: ... batch_size: 1 vLLM-Omni 每次只处理 1 个请求batch_size1 是单实例的上限。这不是配置问题是架构设计决定的Diffusion Worker 的调度模式不支持同时处理多个请求。多实例 Nginx 负载均衡

2.1 vLLM-Omni + Wan2.1-T2V-1.3B测试数据

最新文章

AI推理卡在GC上？.NET 11 GC第7代改进与Span＜T＞-First内存策略（附3个内存泄漏检测脚本）

2026届必备的五大降重复率助手横评

工业机器人智能进化的革命性突破：6自由度机械臂从理论到实践的完整技术解析

为什么你的EF Core向量搜索在K8s集群中频繁OOM？——基于eBPF追踪的内存泄漏根因分析（附诊断脚本+自动修复中间件）

荒岛求生与系统容灾：从《新概念英语》Lesson 12聊聊你的“业务救生筏”准备好了吗？

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

推荐文章

相关文章

分享文章

更多文章

企业微信JS-SDK实战：精准获取用户地理位置与逆解析实现

时间序列预测新思路：像搭乐高一样，用GLAFF把全局时间戳和局部观测值拼起来

大模型小白必看！Agent vs Workflow，一文彻底搞懂AI工作流与智能体区别！

保姆级教程：用Docker Compose在本地部署SearXNG，给DeepSeek-WebUI装上联网搜索插件

Python图像识别自动化避坑指南：为什么你的PyAutoGUI脚本总点不准？

Android多屏显示避坑指南：从Emulator模拟到真机调试的完整解决方案

YOLOv8s-P2在PCB缺陷检测中的优化实践

低浓度瓦斯资源化利用：技术突围与产业落地新路径

技术赋能B端拓客：号码核验行业的迭代与价值升级

雅诗兰黛集团全面确立“One ELC”运营模式，利润复苏与增长计划取得里程碑进展

基于Simulink的LQR控制四轮转向系统设计与仿真研究

SEO_如何通过内容SEO获取稳定流量的关键方法