AI交互模型Thinking Machines实时AI

ChatGPT那一套要过时了？翁荔实测创业首个模型，回合制AI被"原生实时交互"秒了

华卫 (整理)·2026-05-16·原文链接

收录于 2026/5/17 13:02:08

问题背景

当前 AI 交互模式的基本范式仍是"回合制"：人类先提供输入，然后等待从几秒到几分钟不等，随后 AI 模型再给出输出。所有在工作或日常生活中经常使用 AI 模型的人都知道，在文本、图像、音频和视频等各种模态下，这种交互体验仍然是割裂的。

Thinking Machines 的观点是：如果 AI 真正要承担需要自然交互的工作，它就必须超越这种"回合制"的交互方式，变得更加流畅、更自然地响应人类输入。

TML-Interaction-Small 模型

这是一个拥有 2760 亿参数的混合专家（MoE）模型，其中活跃参数为 120 亿，可以持续接收音频、视频和文本输入，并在实时中进行思考、响应和行动，不依赖外部"脚手架"来实现交互能力。

核心技术架构

多流微回合设计：

采用多流（multi-stream）、微回合（micro-turn）设计
以 200 毫秒为单位同时处理输入和输出
"全双工"架构使模型能够实时"听、说、看"

无编码器早期融合：

系统不再依赖像 Whisper 这样庞大的独立编码器来处理音频
通过轻量级嵌入层直接接收原始音频信号（以 dMel 表示）和图像块（40×40）
在 Transformer 架构中从零开始联合训练所有组件

双模型分工：

交互模型：始终与用户保持持续交互，负责对话管理、存在感维持以及即时响应
后台模型：作为异步代理，负责处理持续性推理、网页浏览或复杂工具调用，并将结果流式传回交互模型

多模态能力突破

该模型解锁了一系列原本需要通过"外部脚手架"实现的能力：

语言与视觉即时插话：模型可根据上下文在需要时主动插入，而非仅在用户说完之后回应
同时语音（Simultaneous speech）：用户与模型可同时说话（如实时翻译）
时间感知（Time-awareness）：模型对时间流逝具有直接的感知能力
同时进行工具调用、搜索与生成式 UI：在与用户对话的同时，模型可并行执行搜索、浏览网页或生成界面

性能表现

响应速度

轮次响应延迟为 0.40 秒（Gemini-3.1-flash-live 为 0.57 秒，GPT-realtime-2.0 minimal 为 1.18 秒）

交互质量

在 FD-bench V1.5 上得分 77.8（GPT-realtime-2.0 minimal 为 46.8），几乎是竞争对手的两倍

视觉主动性

在 RepCount-A（视频中物理动作计数）和 ProactiveVideoQA 等测试中，模型能够主动参与视觉环境，而其他前沿模型则保持沉默或给出错误答案

企业应用场景

制造业/实验室：持续监控视频流，一旦检测到安全违规或流程偏差就能主动介入提醒
语音客服：轮次延迟降至 0.40 秒，支持同时语音处理，可在不打断用户的情况下提供实时翻译和反馈
时间敏感流程：工业维护和制药研究中时间是核心变量，交互模型天生具备时间感知能力

团队动态

创始人：Mira Murati（前 OpenAI CTO）、John Schulman（前 OpenAI 研究员）
规模增长至约 130 人
聘请 PyTorch 创始人 Soumith Chintala 担任 CTO
引入 Neal Wu 等知名技术人才
Meta 曾试图收购该公司但被拒绝，随后挖走 7 名创始成员

总结

Thinking Machines 认为，通过将"交互性"内化为模型的一部分，模型规模的扩展将不仅让其更聪明，也会让它成为更高效的协作伙伴。此次发布标志着 AI 在"时间感知"和"存在感"上的一次根本性转变，一旦向企业开放，很可能将从根本上改变企业将 AI 融入运营流程的方式。