英伟达也缺算力!"顶尖 AI 研究员转投 xAI 内幕:谁 GPU 管够,就去哪里
核心观点
在 AI 行业,最硬的招聘福利得加上"算力"了——连英伟达都无法置身事外。
Ethan He 曾在 NVIDIA 主导 Cosmos 世界模型,2025 年中转投 xAI,三个月内带几个工程师从零做出 Grok Imagine 0.9。他在 Latent Space 访谈中给出几个核心判断:
- 视频模型同样存在 scaling law,要继续变强就必须持续扩大训练规模;算力进入这个阶段,就不再只是基础设施,而是研究本身的上限
- 顶尖人才的流动逻辑正在改变:谁能给更多 GPU、更快迭代、更少资源约束,谁就更可能吸走前沿研究员
- 视频生成的下一次跃迁是"视频智能体",类似 AI 编程从一次性生成走向多轮推理调试的演化
- 视频模型的真实成本被严重低估:除 GPU 外,数据标注、VAE 压缩、PB 级存储、云端带宽、音视频时间戳级对齐都是隐性吞金兽
- 视觉智能很大程度上正在由语言智能驱动:扩散模型成熟后,新增益主要来自 LLM 端的提示词重写与智能体编排
1. 从英伟达到 xAI,为了算力"叛逃"
Cosmos One 做完后,Ethan 意识到视频模型也有类似语言模型的 scaling law,必须继续扩大规模。"我需要去一个拥有更多算力资源的地方"——这是他 2025 年中转去 xAI 的直接原因。
加入时 xAI 视频/多模态团队几乎从零开始:没基础设施、没数据、没模型,几名工程师三个月做出 Grok Imagine 0.9。
他强调,训练模型最关键的不是新算法,而是每天能做多少次迭代——迭代越多,模型训练越快,错误缓冲越大,bug 发现越多。xAI 在数据/模型推理基础设施和算力上的储备,让这件事成为可能。
"现在编程模型高效得多,可以帮我们更快实现想法,但算力可能又会重新成为瓶颈。以前你需要几周准备一个实验,现在几小时就做出来马上能训,所以算力会再次成为迭代速度的瓶颈。"
2. 视频模型的第一课:先学会"看图说话"
要做视频模型,实际上要先做图像模型,因为图像数据更便宜,且语言-图像之间的连接更紧密。
标准流程:
- 生成合成配对:从互联网收集视频,用视觉模型给视频加详细字幕——目标是"让一个盲人听到这段文字后能在脑海中重构视频大概是什么样子"
- 训练 VAE 压缩器/分词器:把图像映射到潜空间。1000×1000 图像 = 100 万 token,不可能直接训 Transformer,所以需要 VAE 将像素打包成连续潜向量
- 训练 Diffusion Transformer:架构与语言 Transformer 高度相似,输入输出都是视觉 token,区别只是多了一个去噪过程
- 从图像模型启动视频模型:扩散模型对语言的理解纯粹来自这种映射,所以要先在十亿张图像上训出图像扩散模型,再启动视频模型
时间维度的压缩 trade-off
| 方案 | 压缩率 | 优势 | 劣势 |
|---|---|---|---|
| 8×8×4(时间压缩) | 高 | 节省上下文长度 | 天然延迟 |
| 8×8×1(逐帧压缩) | 低 | 实时性、交互性 | 上下文长度爆炸 |
生成式 UI 的未来
Ethan 谈到 Flipbook 这类"实时生成的浏览器界面",并预言:扩散模型最终会成为前端。
想象互联网不存在,输入 google.com,模型直接想象出页面给你——这就是生成式 UI 的终局。后台跑 LLM/编程模型,前端由扩散模型把内容渲染成像素。
成本测算:H100 每小时 1 美元,每天用 8 小时、每月 30 天,约 240 美元/月(比 Claude Code Max 还贵),但算力成本每年下降 2 倍,这个未来几年内就会到来。
3. GPU 之外,视频模型还有一张更贵的账单
视频模型的训练成本约等于中等规模语言模型。但很多隐性成本被忽略:
- 存储:10 亿视频 × 5MB ≈ 5PB,加上 VAE 连续特征翻倍,几十 PB 级别,成本约 20 万美元
- 网络出口流量:AWS 5PB 第五档出口 = 23 万美元(比存储还贵),且每次训练都需要重新拉数据
- 仅存储 + 网络:每月可达数百万美元,未计 GPU
在 Cosmos 里,团队做了大量优化避免训练受 I/O 限制。
4. 阶梯蒸馏:推理侧的最大收益
推理侧最大的收益来自对模型做阶梯蒸馏 (step distillation):
- 流匹配模型生成一张好图约需 100 步,扩散模型可能 1000 步
- 用完整模型 100 步生成结果,再训练一个 10 步小模型去学完整模型的输出
- 这是"强模型教弱模型"——教师模型分布固定,比互联网整体分布简单得多
GAN 才是阶梯蒸馏的 OG——它从一开始训练的就是一步生成。分布匹配蒸馏 = 一致性模型 + 分布匹配 + GAN,组合之后能得到 4 步、8 步甚至 1 步生成的模型。
音视频联合生成的难点:模态对齐
Grok Imagine 0.9 是第一个大规模部署的音视频联合生成模型。难点在于:
- 大多数 VLM 不理解音频,需要为音频生成合成数据
- 音频既有离散部分(说话),也有连续部分(音乐),LLM 对节拍/音调/音乐细节通常很差
- 必须做到时间戳级对齐——文本-图像/视频之间是松散对齐,但音视频必须精确到每个时间步
5. 世界模型 = 实时 + 交互式 + 长时程视频
Ethan 给出自己的世界模型定义,包含三要素:
- 交互性:键盘/鼠标/语音输入,模型给出合理回应
- 实时性:职业 CS:GO 玩家要求 10ms 内响应;数字人/语音对话允许 200ms;时间压缩与实时性天然冲突
- 长时程:游戏要玩几分钟到几小时,而大多数视频模型当前只能生成几秒
视频延展是交互性的第一步:
- 朴素做法是把上一段最后一帧作为下一段第一帧——重复几次质量就崩
- Veo 3 用上一段几秒上下文——稍好,仍会逐渐下降
- Grok Imagine 视频延展使用所有历史视频上下文——但上下文长度容易爆炸(Cosmos 5 秒 ≈ 5-6 万 token,50 秒就 50 万)
- 参考生视频 (Reference-to-Video):上传最多 7 张图作为条件,让模型选择性地从历史中抽取参考
长上下文管理是 LLM 和视频模型共同面对的核心问题。Ethan 认为视频模型在这件事上甚至走在 LLM 前面——LLM 仍依赖框架做启发式裁剪,但模型本身应该学会自动管理上下文。
6. xAI 被低估的文化
- 文化关键词:快速行动、建设、再宏大的目标都不为过、第一性原理
- 早期目标看起来不可能(如三个月做一个模型),但通过倒推:数据多快能拿到?端到端迭代速度?GPU 加速?人工数据周转时间?算出"最短多少天能做出来"
- 这正是马斯克的思维方式。马斯克本人也会非常密切地和大家一起工作
7. 视觉模型的能力,依靠语言模型
"视觉智能 (visual intelligence) 主要来自语言。这些视频模型的新增益,大多来自语言模型,而不是来自视频模型本身。"
Cosmos 视频模型只有 7B,但提示词重写器/上采样器 (用的是 Llama 或 Mixtral) 比视频模型更大。视频模型本身"很笨",会非常字面地接受输入指令——输入"一只猫"就只显示一只静止的猫在白色背景里。
提示词重写器把简单指令扩展成极其详细的视频描述,并能演化成 agentic 模型:
- 生成"今日新闻图像" → 先去网上抓取今天的新闻 → 处理消化 → 组织版面 → 最后生成图像
- GPT Image 生成一张图 3 分钟,大部分时间花在思考和提示词重写上
Ethan 测试 Cosmos:"生成一只快乐的羊",无重写时像 CGI,加上提示词重写后非常漂亮——没有任何联合训练。
视频智能体的本质:大部分是语言模型,它把各种生成模型(独立模型、扩散头)作为工具调用,甚至包括 Photoshop、FFmpeg 等传统工具,迭代地优化输出,模拟真实创作者的工作流。
8. "切换方向比你想象得更容易"
Ethan 离开 xAI 后会更多做 LLM。他指出 LLM 还缺少上下文感知:
- 不知道自己还剩多少上下文
- 80% 触发自动压缩时模型不知情
- 工具调用历史会自动裁剪,但都依赖启发式规则
- "未来的一个重要突破,可能就是让模型能够自动管理自己的上下文"
回顾职业轨迹:图像识别 → 自监督 → NVIDIA Cosmos / Megatron MoEs → xAI 视频模型 → 现在转回 LLM。
"在机器学习内部,切换方向比你想象得更容易。训练大型模型的很多核心原则,大体上是相通的。"
关键时间预测
- 到今年年底,视频智能体会成为一个大爆点
- 拐点:视频智能体生成的视频达到生产级质量,可用于商业广告分发
- 一旦跨过可用性门槛,企业预算会涌入(智能体天然比视频模型本身更贵,因为要迭代和生成变体),后面会出现指数级增长
- 物理 AI 可能会被一个具备很强视频能力的 LLM 解决,未必需要在真实世界里解决——机器人会成为强 AI 自然学会使用的工具之一