AIVLM视觉理解多模态

对话灵感实验室:全帧率 VLM、低成本与分层部署,业务现场不止需要炫技模型

陈姚戈··原文链接
收录于 2026/5/21 08:42:21

全帧率的意义

大部分现有模型,不管是视频生成模型,还是 VLM,都是先把视频拆成一帧一帧的图片,再用图像编码器编码,最后送进模型。而且这些视频输入都经过抽帧。

冯子勇认为,只要模型仍然把视频拆成一张张图片来处理,无论抽帧策略如何优化,本质上都没有真正利用视频本身的连续结构。图像只是一个瞬间,它前后的连续关系没有在前端建模起来,而是都丢给后端模型去理解,这相当于迫使 LLM 重新理解图和图之间的关系,很浪费。

OneVision-Encoder

LLaVA-OneVision-2.0 采用 OneVision-Encoder 作为视觉底座。这是一个专门研发的、拥有 24 层结构的 ViT 模型,它负责接收图像或视频输入,通过共享时间、高度和宽度三个维度的位置编码,将其转化为带有语义和时序信息的视觉 token。

OneVision-Encoder 能利用视频 codec 中已经存在的信息结构,保留 I 帧提供的完整空间上下文,P 帧则记录相邻帧之间的运动和残差变化。模型因此可以从 P 帧中提取运动和变化更明显的 patch,不必把每一帧都当成完整图片重新编码。

从 CV 到多模态

如果只看任务形式,变化很大。过去更多是图片分类、检测、分割和视频结构化等任务;现在可以做视觉问答、视频描述、空间理解,甚至把视频直接输入模型,让模型给出更综合的判断。

但如果看底层问题,变化没有那麽大。格灵深瞳早期就在处理图像和视频理解问题,只是过去的方式通常是把视频拆成一帧一帧,对每一帧做检测、分类,再通过大量工程逻辑把结果串起来。现在有了 ViT、LLM 和多模态模型,目标变成让模型直接吃进更完整的视频输入,输出描述、判断或任务结果。

视觉智能工坊

格灵深瞳基于模型能力升级打造了新一代视觉 AI 智能产品"视觉智能工坊"。不同于传统"项目制、一次性交付"的视觉算法方案,视觉智能工坊更强调从模型训练、业务编排、边缘部署到运营迭代的的全链路打通,将底层多模态能力与具体业务流程衔接起来,帮助客户更快完成场景落地,并在实际运行中持续优化模型效果与应用能力。