【Marble世界模型】技术解析:World Labs空间智能引擎的架构原理与应用全景

张开发
2026/4/17 2:39:46 15 分钟阅读

分享文章

【Marble世界模型】技术解析:World Labs空间智能引擎的架构原理与应用全景
文章目录Marble世界模型技术解析World Labs空间智能引擎的架构原理与应用全景一、引言二、背景世界模型 vs. 大语言模型2.1 李飞飞的核心判断2.2 从 2D 生成到 3D 空间技术代差三、技术架构Marble 的三层体系3.1 整体架构全景3.2 核心 3D 表征高斯点云Gaussian Splats3.3 两类网格导出四、核心模块深度解析4.1 Chisel结构与风格解耦4.2 World Expansion 与 Composer4.3 Spark开源 Web 渲染引擎五、RTFMWorld Labs 的另一条技术路线六、应用场景全景七、竞品横向对比八、总结Marble世界模型技术解析World Labs空间智能引擎的架构原理与应用全景一、引言亲爱的朋友们创作不容易若对您有帮助的话请点赞收藏加关注哦您的关注是我持续创作的动力谢谢大家有问题请私信或联系邮箱jasonai.fngmail.com2025 年 11 月 12 日李飞飞Fei-Fei Li创立的 World Labs 将其第一款商业产品 Marble 正式向公众开放。这个时间节点颇具意味——彼时大语言模型的军备竞赛已进入存量博弈而 Marble 的发布将另一个问题推到了台前AI 的下一个前沿是空间Space而不是语言Language。Marble 是一个多模态世界模型Multimodal World Model你可以输入一段文字描述、一张照片、一段视频甚至一个粗糙的 3D 布局Marble 将其转化为可下载、可编辑、可交互的持久化三维世界。区别于大多数竞争者探索即生成的实时流式方案Marble 的核心赌注是先建世界再进入世界——生成稳定、可导出、与主流引擎兼容的 3D 环境资产。本文从技术架构、核心模块、工程实践、竞品对比四个维度对 Marble 进行深度解析并同步覆盖 World Labs 的另一技术路线 RTFM帮助读者完整理解 World Labs 在空间智能赛道的布局逻辑。二、背景世界模型 vs. 大语言模型2.1 李飞飞的核心判断李飞飞在其公开宣言《From Words to Worlds》中明确指出LLM 擅长在一维 token 序列上预测下一个词这让它天然难以处理空间推理——比如统计视频里有多少把椅子或者记住一小时前房间的样子。世界模型的目标是构建物理世界的内部表征预测其行为、物理规律和视觉外观进而让机器和人类智能体与之交互。这不是 LLM 的延伸而是一个需要全新架构的独立研究方向。2.2 从 2D 生成到 3D 空间技术代差范式代表模型表征维度持久性可导出文生图Stable Diffusion, DALL-E2D 像素无PNG/JPG文生视频Sora, Wan, HunyuanVideo2D 帧序列无MP4实时世界模型Google Genie, RTFM隐式神经表征有限无/受限持久世界模型Marble3D 高斯点云完全持久✅ 多格式三、技术架构Marble 的三层体系3.1 整体架构全景┌──────────────────────────────────────────────────────────────┐ │ 输入层多模态 │ │ 文本 Prompt · 单张图像 · 多视角图 · 视频 · 3D 布局GLB/FBX │ └──────────────────────────────┬───────────────────────────────┘ │ ▼ ┌──────────────────────────────────────────────────────────────┐ │ 生成核心Generative World Engine │ │ │ │ ┌─────────────────────┐ ┌──────────────────────────────┐ │ │ │ Chisel 编辑器 │ │ 多模态融合生成管线 │ │ │ │ (结构-风格解耦) │──►│ 输入编码 → 3D 扩散 → 细化 │ │ │ │ 粗布局 文本风格 │ │ │ │ │ └─────────────────────┘ └──────────────────────────────┘ │ │ │ │ │ World Expansion · Composer多世界拼接 │ └──────────────────────────────┬───────────────────────────────┘ │ ▼ ┌──────────────────────────────────────────────────────────────┐ │ 输出层3D 表征与导出 │ │ │ │ 高斯点云.ply· 碰撞网格.glb· 高质量网格 · 视频 │ │ │ │ Spark 渲染器Three.js · WebGL · VR/AR │ └──────────────────────────────────────────────────────────────┘3.2 核心 3D 表征高斯点云Gaussian Splats高斯点云3D Gaussian Splatting, 3DGS是 Marble 的主要内部表征格式也是目前保真度最高的实时 3D 神经表征之一。基本原理用数百万个半透明的三维高斯椭球来表示场景每个椭球携带位置、旋转、缩放、不透明度和球谐系数颜色五类属性每个 Gaussian 粒子属性 μ ∈ R³ —— 中心位置 Σ ∈ R³ˣ³ —— 协方差矩阵形状/旋转 α ∈ [0,1] —— 不透明度 c ∈ SH系数 —— 视角相关颜色球谐函数Marble 将生成结果导出为标准.ply文件可直接被 World Labs 开源的Spark 渲染器基于 THREE.js加载在 Web 浏览器、桌面、移动端和 VR 头显上实时渲染。3.3 两类网格导出除高斯点云外Marble 同时支持两种网格格式满足下游引擎集成需求格式用途精度典型场景碰撞网格Collider Mesh.glb物理碰撞模拟低简化几何Unreal / Unity 物理层、机器人仿真高质量网格HQ Mesh视觉还原高逼近 Gaussian 保真度影视渲染、精细编辑视频内容分发—预览、社交媒体、可控镜头路径四、核心模块深度解析4.1 Chisel结构与风格解耦Chisel 是 Marble 最具差异化的编辑创新——一个 AI 原生 3D 雕刻工具核心理念是把**空间结构Structure和视觉风格Style**拆成两个独立的输入通道Chisel 工作流 Step 1用基础几何体盒子/平面或导入 GLB/FBX 资产搭建粗布局 ↓ Step 2用文本 Prompt 描述视觉风格赛博朋克霓虹夜市 ↓ Step 3Marble 将粗布局 文本风格融合生成完整 3D 世界 ↓ Step 4局部编辑——替换物体、调整风格、不影响整体结构Chisel 界面包含四个核心组件3D 视口主绘图区、几何面板墙壁/全景工具、模板上传器导入 GLB/FBX、生成控制台文本输入 生成按钮。4.2 World Expansion 与 Composer对于大型场景需求Marble 提供两种扩展机制机制行为适用场景World Expansion以现有场景为基础一键向外扩展地图级大世界、开放世界游戏关卡Composer将多个独立生成的世界无缝拼接多区域组合、团队协作创作4.3 Spark开源 Web 渲染引擎Spark 是 World Labs 开源的跨平台高斯点云渲染库集成于 THREE.js 生态流式 LODLevel-of-Detail根据网络带宽和视距动态调整渲染粒子密度跨平台桌面、移动端、VRVision Pro / Quest 3统一渲染管线WebGL/WebXR 原生无需插件浏览器直接运行五、RTFMWorld Labs 的另一条技术路线Marble 负责生成持久化世界而 World Labs 于 2025 年 10 月同步发布的RTFMReal-Time Frame Model则是完全不同的技术路线——实时交互式世界生成Marble vs. RTFM 对比 Marble: 输入 → 生成 → 持久化 3D 资产 → 下载/编辑/导入引擎 [离线生成高保真可导出] RTFM: 输入 → 实时帧推理 → 交互式漫游KV Cache 作为世界状态 [在线生成实时交互无法导出]RTFM 的架构是一个自回归扩散 Transformer端到端训练于大规模视频数据集。它不依赖显式 3D 表征而是将历史帧编码进 KV Cache通过注意力机制在生成新帧时隐式回忆世界状态。单张 H100 即可实现交互帧率推理。两条路线并行恰好覆盖了世界模型的两大需求内容生产Marblevs.实时仿真RTFM。六、应用场景全景场景具体用法代表案例游戏开发生成背景环境、关卡原型导入 Unreal/Unity 加逻辑开放世界环境快速原型机器人仿真生成数字孪生工厂配合 NVIDIA Isaac Sim 训练策略Marble Isaac Sim 流水线小时级 vs. 传统周级影视 VFX快速构建虚拟场景资产替代部分实景拍摄虚拟制片背景板生成VR/AR生成沉浸式虚拟空间Vision Pro / Quest 3 直接查看虚拟会议室、展厅科学模拟医疗训练环境、手术场景 3D 重建李飞飞展望方向待落地七、竞品横向对比维度MarbleWorld LabsGoogle Genie 2NVIDIA CosmosDecart AI生成范式持久化 3D 环境实时交互流式物理模拟视频实时交互输入模态文本/图/视频/3D 布局文本/图文本/视频图/文本3D 表征高斯点云 网格隐式无导出视频帧隐式可导出✅ PLY/GLB/视频❌部分❌编辑能力✅ Chisel 局部编辑有限无有限引擎集成✅ Unreal/Unity/Blender❌✅NVIDIA 生态❌实时交互❌离线生成✅❌✅机器人仿真✅Isaac Sim 集成❌✅❌商业可用✅ 含商业授权套餐研究阶段商业授权研究/Beta核心差异Marble 是当前唯一聚焦持久化 可导出 可编辑的商用世界模型Google Genie 和 Decart AI 在实时交互体验上更强但生成结果无法稳定导出为可用资产——这在游戏和机器人两个核心商业场景中是决定性短板。NVIDIA Cosmos 虽然有引擎集成优势但其定位更偏向物理视频生成而非通用 3D 世界构建。八、总结维度核心要点技术路线高斯点云作为核心 3D 表征兼顾高保真渲染与下游引擎兼容性编辑创新Chisel 将结构与风格解耦是 Marble 最具工程深度的差异化设计双线战略Marble持久世界 RTFM实时交互形成生产内容与实时仿真的完整覆盖商业落地游戏/机器人仿真/VFX 是近期锚定场景医疗/科学是中长期方向竞争护城河持久化 可导出 Chisel 编辑 引擎集成四合一同类竞品暂未复制Marble 代表了 AI 内容生产从2D 像素到3D 空间的代际跃迁。李飞飞将空间智能定义为连接想象、感知与行动的能力而 Marble 是当下最接近这一定义的商用落地形态。它还远未完成——高斯点云的物理一致性、大规模场景的几何精度、实时交互与持久化的统一都是未解的工程挑战。但它已经足够清晰地指出了方向世界不是被描述出来的而是被生成出来的。参考资料Marble: A Multimodal World Model — World Labs 官方博客Fei-Fei Li’s World Labs speeds up the world model race — TechCrunchRTFM: Real-Time Frame Model — Fei-Fei Li on XChisel 工具文档 — World Labs DocsNVIDIA Isaac Sim × Marble 机器人仿真案例 — NVIDIA 技术博客From Words to Worlds: Spatial Intelligence — Fei-Fei Li Substack

更多文章