对话灵感实验室：全帧率 VLM、低成本与分层部署，业务现场不止需要炫技模型

全帧率的意义

大部分现有模型，不管是视频生成模型，还是 VLM，都是先把视频拆成一帧一帧的图片，再用图像编码器编码，最后送进模型。而且这些视频输入都经过抽帧。

冯子勇认为，只要模型仍然把视频拆成一张张图片来处理，无论抽帧策略如何优化，本质上都没有真正利用视频本身的连续结构。图像只是一个瞬间，它前后的连续关系没有在前端建模起来，而是都丢给后端模型去理解，这相当于迫使 LLM 重新理解图和图之间的关系，很浪费。

OneVision-Encoder

LLaVA-OneVision-2.0 采用 OneVision-Encoder 作为视觉底座。这是一个专门研发的、拥有 24 层结构的 ViT 模型，它负责接收图像或视频输入，通过共享时间、高度和宽度三个维度的位置编码，将其转化为带有语义和时序信息的视觉 token。

OneVision-Encoder 能利用视频 codec 中已经存在的信息结构，保留 I 帧提供的完整空间上下文，P 帧则记录相邻帧之间的运动和残差变化。模型因此可以从 P 帧中提取运动和变化更明显的 patch，不必把每一帧都当成完整图片重新编码。

从 CV 到多模态

如果只看任务形式，变化很大。过去更多是图片分类、检测、分割和视频结构化等任务；现在可以做视觉问答、视频描述、空间理解，甚至把视频直接输入模型，让模型给出更综合的判断。

但如果看底层问题，变化没有那麽大。格灵深瞳早期就在处理图像和视频理解问题，只是过去的方式通常是把视频拆成一帧一帧，对每一帧做检测、分类，再通过大量工程逻辑把结果串起来。现在有了 ViT、LLM 和多模态模型，目标变成让模型直接吃进更完整的视频输入，输出描述、判断或任务结果。

视觉智能工坊

格灵深瞳基于模型能力升级打造了新一代视觉 AI 智能产品"视觉智能工坊"。不同于传统"项目制、一次性交付"的视觉算法方案，视觉智能工坊更强调从模型训练、业务编排、边缘部署到运营迭代的的全链路打通，将底层多模态能力与具体业务流程衔接起来，帮助客户更快完成场景落地，并在实际运行中持续优化模型效果与应用能力。