AIxAI视频模型GPU世界模型

英伟达也缺算力!"顶尖 AI 研究员转投 xAI 内幕:谁 GPU 管够,就去哪里

褚杏娟··原文链接
收录于 2026/6/7 10:11:54

核心观点

在 AI 行业,最硬的招聘福利得加上"算力"了——连英伟达都无法置身事外

Ethan He 曾在 NVIDIA 主导 Cosmos 世界模型,2025 年中转投 xAI,三个月内带几个工程师从零做出 Grok Imagine 0.9。他在 Latent Space 访谈中给出几个核心判断:

  1. 视频模型同样存在 scaling law,要继续变强就必须持续扩大训练规模;算力进入这个阶段,就不再只是基础设施,而是研究本身的上限
  2. 顶尖人才的流动逻辑正在改变:谁能给更多 GPU、更快迭代、更少资源约束,谁就更可能吸走前沿研究员
  3. 视频生成的下一次跃迁是"视频智能体",类似 AI 编程从一次性生成走向多轮推理调试的演化
  4. 视频模型的真实成本被严重低估:除 GPU 外,数据标注、VAE 压缩、PB 级存储、云端带宽、音视频时间戳级对齐都是隐性吞金兽
  5. 视觉智能很大程度上正在由语言智能驱动:扩散模型成熟后,新增益主要来自 LLM 端的提示词重写与智能体编排

1. 从英伟达到 xAI,为了算力"叛逃"

Cosmos One 做完后,Ethan 意识到视频模型也有类似语言模型的 scaling law,必须继续扩大规模。"我需要去一个拥有更多算力资源的地方"——这是他 2025 年中转去 xAI 的直接原因。

加入时 xAI 视频/多模态团队几乎从零开始:没基础设施、没数据、没模型,几名工程师三个月做出 Grok Imagine 0.9

他强调,训练模型最关键的不是新算法,而是每天能做多少次迭代——迭代越多,模型训练越快,错误缓冲越大,bug 发现越多。xAI 在数据/模型推理基础设施和算力上的储备,让这件事成为可能。

"现在编程模型高效得多,可以帮我们更快实现想法,但算力可能又会重新成为瓶颈。以前你需要几周准备一个实验,现在几小时就做出来马上能训,所以算力会再次成为迭代速度的瓶颈。"

2. 视频模型的第一课:先学会"看图说话"

要做视频模型,实际上要先做图像模型,因为图像数据更便宜,且语言-图像之间的连接更紧密。

标准流程:

  1. 生成合成配对:从互联网收集视频,用视觉模型给视频加详细字幕——目标是"让一个盲人听到这段文字后能在脑海中重构视频大概是什么样子"
  2. 训练 VAE 压缩器/分词器:把图像映射到潜空间。1000×1000 图像 = 100 万 token,不可能直接训 Transformer,所以需要 VAE 将像素打包成连续潜向量
  3. 训练 Diffusion Transformer:架构与语言 Transformer 高度相似,输入输出都是视觉 token,区别只是多了一个去噪过程
  4. 从图像模型启动视频模型:扩散模型对语言的理解纯粹来自这种映射,所以要先在十亿张图像上训出图像扩散模型,再启动视频模型

时间维度的压缩 trade-off

方案压缩率优势劣势
8×8×4(时间压缩)节省上下文长度天然延迟
8×8×1(逐帧压缩)实时性、交互性上下文长度爆炸

生成式 UI 的未来

Ethan 谈到 Flipbook 这类"实时生成的浏览器界面",并预言:扩散模型最终会成为前端

想象互联网不存在,输入 google.com,模型直接想象出页面给你——这就是生成式 UI 的终局。后台跑 LLM/编程模型,前端由扩散模型把内容渲染成像素。

成本测算:H100 每小时 1 美元,每天用 8 小时、每月 30 天,约 240 美元/月(比 Claude Code Max 还贵),但算力成本每年下降 2 倍,这个未来几年内就会到来。

3. GPU 之外,视频模型还有一张更贵的账单

视频模型的训练成本约等于中等规模语言模型。但很多隐性成本被忽略:

  • 存储:10 亿视频 × 5MB ≈ 5PB,加上 VAE 连续特征翻倍,几十 PB 级别,成本约 20 万美元
  • 网络出口流量:AWS 5PB 第五档出口 = 23 万美元(比存储还贵),且每次训练都需要重新拉数据
  • 仅存储 + 网络:每月可达数百万美元,未计 GPU

在 Cosmos 里,团队做了大量优化避免训练受 I/O 限制。

4. 阶梯蒸馏:推理侧的最大收益

推理侧最大的收益来自对模型做阶梯蒸馏 (step distillation)

  • 流匹配模型生成一张好图约需 100 步,扩散模型可能 1000 步
  • 用完整模型 100 步生成结果,再训练一个 10 步小模型去学完整模型的输出
  • 这是"强模型教弱模型"——教师模型分布固定,比互联网整体分布简单得多

GAN 才是阶梯蒸馏的 OG——它从一开始训练的就是一步生成。分布匹配蒸馏 = 一致性模型 + 分布匹配 + GAN,组合之后能得到 4 步、8 步甚至 1 步生成的模型。

音视频联合生成的难点:模态对齐

Grok Imagine 0.9 是第一个大规模部署的音视频联合生成模型。难点在于:

  • 大多数 VLM 不理解音频,需要为音频生成合成数据
  • 音频既有离散部分(说话),也有连续部分(音乐),LLM 对节拍/音调/音乐细节通常很差
  • 必须做到时间戳级对齐——文本-图像/视频之间是松散对齐,但音视频必须精确到每个时间步

5. 世界模型 = 实时 + 交互式 + 长时程视频

Ethan 给出自己的世界模型定义,包含三要素:

  1. 交互性:键盘/鼠标/语音输入,模型给出合理回应
  2. 实时性:职业 CS:GO 玩家要求 10ms 内响应;数字人/语音对话允许 200ms;时间压缩与实时性天然冲突
  3. 长时程:游戏要玩几分钟到几小时,而大多数视频模型当前只能生成几秒

视频延展是交互性的第一步

  • 朴素做法是把上一段最后一帧作为下一段第一帧——重复几次质量就崩
  • Veo 3 用上一段几秒上下文——稍好,仍会逐渐下降
  • Grok Imagine 视频延展使用所有历史视频上下文——但上下文长度容易爆炸(Cosmos 5 秒 ≈ 5-6 万 token,50 秒就 50 万)
  • 参考生视频 (Reference-to-Video):上传最多 7 张图作为条件,让模型选择性地从历史中抽取参考

长上下文管理是 LLM 和视频模型共同面对的核心问题。Ethan 认为视频模型在这件事上甚至走在 LLM 前面——LLM 仍依赖框架做启发式裁剪,但模型本身应该学会自动管理上下文。

6. xAI 被低估的文化

  • 文化关键词:快速行动、建设、再宏大的目标都不为过、第一性原理
  • 早期目标看起来不可能(如三个月做一个模型),但通过倒推:数据多快能拿到?端到端迭代速度?GPU 加速?人工数据周转时间?算出"最短多少天能做出来"
  • 这正是马斯克的思维方式。马斯克本人也会非常密切地和大家一起工作

7. 视觉模型的能力,依靠语言模型

"视觉智能 (visual intelligence) 主要来自语言。这些视频模型的新增益,大多来自语言模型,而不是来自视频模型本身。"

Cosmos 视频模型只有 7B,但提示词重写器/上采样器 (用的是 Llama 或 Mixtral) 比视频模型更大。视频模型本身"很笨",会非常字面地接受输入指令——输入"一只猫"就只显示一只静止的猫在白色背景里。

提示词重写器把简单指令扩展成极其详细的视频描述,并能演化成 agentic 模型:

  • 生成"今日新闻图像" → 先去网上抓取今天的新闻 → 处理消化 → 组织版面 → 最后生成图像
  • GPT Image 生成一张图 3 分钟,大部分时间花在思考和提示词重写上

Ethan 测试 Cosmos:"生成一只快乐的羊",无重写时像 CGI,加上提示词重写后非常漂亮——没有任何联合训练

视频智能体的本质:大部分是语言模型,它把各种生成模型(独立模型、扩散头)作为工具调用,甚至包括 Photoshop、FFmpeg 等传统工具,迭代地优化输出,模拟真实创作者的工作流。

8. "切换方向比你想象得更容易"

Ethan 离开 xAI 后会更多做 LLM。他指出 LLM 还缺少上下文感知

  • 不知道自己还剩多少上下文
  • 80% 触发自动压缩时模型不知情
  • 工具调用历史会自动裁剪,但都依赖启发式规则
  • "未来的一个重要突破,可能就是让模型能够自动管理自己的上下文"

回顾职业轨迹:图像识别 → 自监督 → NVIDIA Cosmos / Megatron MoEs → xAI 视频模型 → 现在转回 LLM。

"在机器学习内部,切换方向比你想象得更容易。训练大型模型的很多核心原则,大体上是相通的。"

关键时间预测

  • 到今年年底,视频智能体会成为一个大爆点
  • 拐点:视频智能体生成的视频达到生产级质量,可用于商业广告分发
  • 一旦跨过可用性门槛,企业预算会涌入(智能体天然比视频模型本身更贵,因为要迭代和生成变体),后面会出现指数级增长
  • 物理 AI 可能会被一个具备很强视频能力的 LLM 解决,未必需要在真实世界里解决——机器人会成为强 AI 自然学会使用的工具之一