英伟达也缺算力！"顶尖 AI 研究员转投 xAI 内幕：谁 GPU 管够，就去哪里

核心观点

在 AI 行业，最硬的招聘福利得加上"算力"了——连英伟达都无法置身事外。

Ethan He 曾在 NVIDIA 主导 Cosmos 世界模型，2025 年中转投 xAI，三个月内带几个工程师从零做出 Grok Imagine 0.9。他在 Latent Space 访谈中给出几个核心判断：

视频模型同样存在 scaling law，要继续变强就必须持续扩大训练规模；算力进入这个阶段，就不再只是基础设施，而是研究本身的上限
顶尖人才的流动逻辑正在改变：谁能给更多 GPU、更快迭代、更少资源约束，谁就更可能吸走前沿研究员
视频生成的下一次跃迁是"视频智能体"，类似 AI 编程从一次性生成走向多轮推理调试的演化
视频模型的真实成本被严重低估：除 GPU 外，数据标注、VAE 压缩、PB 级存储、云端带宽、音视频时间戳级对齐都是隐性吞金兽
视觉智能很大程度上正在由语言智能驱动：扩散模型成熟后，新增益主要来自 LLM 端的提示词重写与智能体编排

1. 从英伟达到 xAI，为了算力"叛逃"

Cosmos One 做完后，Ethan 意识到视频模型也有类似语言模型的 scaling law，必须继续扩大规模。"我需要去一个拥有更多算力资源的地方"——这是他 2025 年中转去 xAI 的直接原因。

加入时 xAI 视频/多模态团队几乎从零开始：没基础设施、没数据、没模型，几名工程师三个月做出 Grok Imagine 0.9。

他强调，训练模型最关键的不是新算法，而是每天能做多少次迭代——迭代越多，模型训练越快，错误缓冲越大，bug 发现越多。xAI 在数据/模型推理基础设施和算力上的储备，让这件事成为可能。

"现在编程模型高效得多，可以帮我们更快实现想法，但算力可能又会重新成为瓶颈。以前你需要几周准备一个实验，现在几小时就做出来马上能训，所以算力会再次成为迭代速度的瓶颈。"

2. 视频模型的第一课：先学会"看图说话"

要做视频模型，实际上要先做图像模型，因为图像数据更便宜，且语言-图像之间的连接更紧密。

标准流程：

生成合成配对：从互联网收集视频，用视觉模型给视频加详细字幕——目标是"让一个盲人听到这段文字后能在脑海中重构视频大概是什么样子"
训练 VAE 压缩器/分词器：把图像映射到潜空间。1000×1000 图像 = 100 万 token，不可能直接训 Transformer，所以需要 VAE 将像素打包成连续潜向量
训练 Diffusion Transformer：架构与语言 Transformer 高度相似，输入输出都是视觉 token，区别只是多了一个去噪过程
从图像模型启动视频模型：扩散模型对语言的理解纯粹来自这种映射，所以要先在十亿张图像上训出图像扩散模型，再启动视频模型

时间维度的压缩 trade-off

方案	压缩率	优势	劣势
8×8×4（时间压缩）	高	节省上下文长度	天然延迟
8×8×1（逐帧压缩）	低	实时性、交互性	上下文长度爆炸

生成式 UI 的未来

Ethan 谈到 Flipbook 这类"实时生成的浏览器界面"，并预言：扩散模型最终会成为前端。

想象互联网不存在，输入 google.com，模型直接想象出页面给你——这就是生成式 UI 的终局。后台跑 LLM/编程模型，前端由扩散模型把内容渲染成像素。

成本测算：H100 每小时 1 美元，每天用 8 小时、每月 30 天，约 240 美元/月（比 Claude Code Max 还贵），但算力成本每年下降 2 倍，这个未来几年内就会到来。

3. GPU 之外，视频模型还有一张更贵的账单

视频模型的训练成本约等于中等规模语言模型。但很多隐性成本被忽略：

存储：10 亿视频 × 5MB ≈ 5PB，加上 VAE 连续特征翻倍，几十 PB 级别，成本约 20 万美元
网络出口流量：AWS 5PB 第五档出口 = 23 万美元（比存储还贵），且每次训练都需要重新拉数据
仅存储 + 网络：每月可达数百万美元，未计 GPU

在 Cosmos 里，团队做了大量优化避免训练受 I/O 限制。

4. 阶梯蒸馏：推理侧的最大收益

推理侧最大的收益来自对模型做阶梯蒸馏 (step distillation)：

流匹配模型生成一张好图约需 100 步，扩散模型可能 1000 步
用完整模型 100 步生成结果，再训练一个 10 步小模型去学完整模型的输出
这是"强模型教弱模型"——教师模型分布固定，比互联网整体分布简单得多

GAN 才是阶梯蒸馏的 OG——它从一开始训练的就是一步生成。分布匹配蒸馏 = 一致性模型 + 分布匹配 + GAN，组合之后能得到 4 步、8 步甚至 1 步生成的模型。

音视频联合生成的难点：模态对齐

Grok Imagine 0.9 是第一个大规模部署的音视频联合生成模型。难点在于：

大多数 VLM 不理解音频，需要为音频生成合成数据
音频既有离散部分（说话），也有连续部分（音乐），LLM 对节拍/音调/音乐细节通常很差
必须做到时间戳级对齐——文本-图像/视频之间是松散对齐，但音视频必须精确到每个时间步

5. 世界模型 = 实时 + 交互式 + 长时程视频

Ethan 给出自己的世界模型定义，包含三要素：

交互性：键盘/鼠标/语音输入，模型给出合理回应
实时性：职业 CS:GO 玩家要求 10ms 内响应；数字人/语音对话允许 200ms；时间压缩与实时性天然冲突
长时程：游戏要玩几分钟到几小时，而大多数视频模型当前只能生成几秒

视频延展是交互性的第一步：

朴素做法是把上一段最后一帧作为下一段第一帧——重复几次质量就崩
Veo 3 用上一段几秒上下文——稍好，仍会逐渐下降
Grok Imagine 视频延展使用所有历史视频上下文——但上下文长度容易爆炸（Cosmos 5 秒 ≈ 5-6 万 token，50 秒就 50 万）
参考生视频 (Reference-to-Video)：上传最多 7 张图作为条件，让模型选择性地从历史中抽取参考

长上下文管理是 LLM 和视频模型共同面对的核心问题。Ethan 认为视频模型在这件事上甚至走在 LLM 前面——LLM 仍依赖框架做启发式裁剪，但模型本身应该学会自动管理上下文。

6. xAI 被低估的文化

文化关键词：快速行动、建设、再宏大的目标都不为过、第一性原理
早期目标看起来不可能（如三个月做一个模型），但通过倒推：数据多快能拿到？端到端迭代速度？GPU 加速？人工数据周转时间？算出"最短多少天能做出来"
这正是马斯克的思维方式。马斯克本人也会非常密切地和大家一起工作

7. 视觉模型的能力，依靠语言模型

"视觉智能 (visual intelligence) 主要来自语言。这些视频模型的新增益，大多来自语言模型，而不是来自视频模型本身。"

Cosmos 视频模型只有 7B，但提示词重写器/上采样器 (用的是 Llama 或 Mixtral) 比视频模型更大。视频模型本身"很笨"，会非常字面地接受输入指令——输入"一只猫"就只显示一只静止的猫在白色背景里。

提示词重写器把简单指令扩展成极其详细的视频描述，并能演化成 agentic 模型：

生成"今日新闻图像" → 先去网上抓取今天的新闻 → 处理消化 → 组织版面 → 最后生成图像
GPT Image 生成一张图 3 分钟，大部分时间花在思考和提示词重写上

Ethan 测试 Cosmos："生成一只快乐的羊"，无重写时像 CGI，加上提示词重写后非常漂亮——没有任何联合训练。

视频智能体的本质：大部分是语言模型，它把各种生成模型（独立模型、扩散头）作为工具调用，甚至包括 Photoshop、FFmpeg 等传统工具，迭代地优化输出，模拟真实创作者的工作流。

8. "切换方向比你想象得更容易"

Ethan 离开 xAI 后会更多做 LLM。他指出 LLM 还缺少上下文感知：

不知道自己还剩多少上下文
80% 触发自动压缩时模型不知情
工具调用历史会自动裁剪，但都依赖启发式规则
"未来的一个重要突破，可能就是让模型能够自动管理自己的上下文"

回顾职业轨迹：图像识别 → 自监督 → NVIDIA Cosmos / Megatron MoEs → xAI 视频模型 → 现在转回 LLM。

"在机器学习内部，切换方向比你想象得更容易。训练大型模型的很多核心原则，大体上是相通的。"

关键时间预测

到今年年底，视频智能体会成为一个大爆点
拐点：视频智能体生成的视频达到生产级质量，可用于商业广告分发
一旦跨过可用性门槛，企业预算会涌入（智能体天然比视频模型本身更贵，因为要迭代和生成变体），后面会出现指数级增长
物理 AI 可能会被一个具备很强视频能力的 LLM 解决，未必需要在真实世界里解决——机器人会成为强 AI 自然学会使用的工具之一