AI交互模型Thinking Machines实时AI

ChatGPT那一套要过时了?翁荔实测创业首个模型,回合制AI被"原生实时交互"秒了

华卫 (整理)··原文链接
收录于 2026/5/17 13:02:08

问题背景

当前 AI 交互模式的基本范式仍是"回合制":人类先提供输入,然后等待从几秒到几分钟不等,随后 AI 模型再给出输出。所有在工作或日常生活中经常使用 AI 模型的人都知道,在文本、图像、音频和视频等各种模态下,这种交互体验仍然是割裂的。

Thinking Machines 的观点是:如果 AI 真正要承担需要自然交互的工作,它就必须超越这种"回合制"的交互方式,变得更加流畅、更自然地响应人类输入。

TML-Interaction-Small 模型

这是一个拥有 2760 亿参数的混合专家(MoE)模型,其中活跃参数为 120 亿,可以持续接收音频、视频和文本输入,并在实时中进行思考、响应和行动,不依赖外部"脚手架"来实现交互能力。

核心技术架构

多流微回合设计

  • 采用多流(multi-stream)、微回合(micro-turn)设计
  • 以 200 毫秒为单位同时处理输入和输出
  • "全双工"架构使模型能够实时"听、说、看"

无编码器早期融合

  • 系统不再依赖像 Whisper 这样庞大的独立编码器来处理音频
  • 通过轻量级嵌入层直接接收原始音频信号(以 dMel 表示)和图像块(40×40)
  • 在 Transformer 架构中从零开始联合训练所有组件

双模型分工

  • 交互模型:始终与用户保持持续交互,负责对话管理、存在感维持以及即时响应
  • 后台模型:作为异步代理,负责处理持续性推理、网页浏览或复杂工具调用,并将结果流式传回交互模型

多模态能力突破

该模型解锁了一系列原本需要通过"外部脚手架"实现的能力:

  • 语言与视觉即时插话:模型可根据上下文在需要时主动插入,而非仅在用户说完之后回应
  • 同时语音(Simultaneous speech):用户与模型可同时说话(如实时翻译)
  • 时间感知(Time-awareness):模型对时间流逝具有直接的感知能力
  • 同时进行工具调用、搜索与生成式 UI:在与用户对话的同时,模型可并行执行搜索、浏览网页或生成界面

性能表现

响应速度

  • 轮次响应延迟为 0.40 秒(Gemini-3.1-flash-live 为 0.57 秒,GPT-realtime-2.0 minimal 为 1.18 秒)

交互质量

  • 在 FD-bench V1.5 上得分 77.8(GPT-realtime-2.0 minimal 为 46.8),几乎是竞争对手的两倍

视觉主动性

  • 在 RepCount-A(视频中物理动作计数)和 ProactiveVideoQA 等测试中,模型能够主动参与视觉环境,而其他前沿模型则保持沉默或给出错误答案

企业应用场景

  • 制造业/实验室:持续监控视频流,一旦检测到安全违规或流程偏差就能主动介入提醒
  • 语音客服:轮次延迟降至 0.40 秒,支持同时语音处理,可在不打断用户的情况下提供实时翻译和反馈
  • 时间敏感流程:工业维护和制药研究中时间是核心变量,交互模型天生具备时间感知能力

团队动态

  • 创始人:Mira Murati(前 OpenAI CTO)、John Schulman(前 OpenAI 研究员)
  • 规模增长至约 130 人
  • 聘请 PyTorch 创始人 Soumith Chintala 担任 CTO
  • 引入 Neal Wu 等知名技术人才
  • Meta 曾试图收购该公司但被拒绝,随后挖走 7 名创始成员

总结

Thinking Machines 认为,通过将"交互性"内化为模型的一部分,模型规模的扩展将不仅让其更聪明,也会让它成为更高效的协作伙伴。此次发布标志着 AI 在"时间感知"和"存在感"上的一次根本性转变,一旦向企业开放,很可能将从根本上改变企业将 AI 融入运营流程的方式。