AIAgent多模态OPPO

OPPO 小布记忆:全模态碎片化内容的理解与智能整理实践

王闪闪··原文链接
收录于 2026/5/30 09:35:10

问题背景:为什么需要全模态记忆整理?

用户每天产生大量碎片化内容——截图、语音、视频、文档、多图……如何让 AI 理解这些异构多模态数据,并自动整理成有价值的"记忆"?

三大核心难点

  1. 模态异构理解:截图、语音、视频、文档、多图的异构挑战
  2. 跨模态关联:不同模态之间的语义连接
  3. 结构化生成:从碎片到有序记忆的转换

一键闪记整体架构:端云协同的多模态理解框架

产品层触发入口

  • 小布记忆(单击/长按/双击)、魔方按键、小布助手(Query/主动/推荐气泡)
  • 端侧采集框架(三指上滑/点击交互)、截屏(普通截屏/长截屏)
  • AI 流体云(取餐码)、密码本(个人信息)、日历(日程/待办)、相机(大师参数)

端侧引擎:自研 AndesVL 多模态大模型

采集能力

  • 图文提取
  • 语音转 ASR
  • 视频

端侧算法(AIUnit)

  • NER & OCR 能力
  • 图片分类和总结
  • 结构化字段
  • 取餐码、账单、大师参数等

存储记忆数据

云端服务

  • 内容安全
  • 复杂推理任务:复杂订单提取、复杂 NER 提取、复杂日程待办

端云任务分流与多模态理解能力

分流模块

对输入图文信息进行分析,生成分类标签;根据分类标签进行任务规划。

简单场景(流量占比 80%)

  • 直屏/焦点屏(单屏)+ 手机 + 任务数≤2 + 单标签单实例(如单个订单、单个火车票、单个日程)
  • 需同时满足

复杂场景(流量占比 20%)

  • 分屏/多浮窗/平板,或任务数>2,或多标签分类/多实例信息(如多个日程、多个火车票)

多模态理解能力

  1. 截图理解:11 类场景分类、POI/时间/价格等结构化信息提取、Dense Caption 端侧图片理解
  2. 语音理解:语音转 ASR、意图识别、关键信息提取(语音记-日程待办、语音记-记账)
  3. 图文理解:结构化提取、日程待办、取餐码、记账、文本-记账分类
  4. 视频理解:关键帧提取与内容摘要生成
  5. 文档/多图理解:长文档结构化、多图相册的批量理解
  6. 多语种 POI 提取:英语、印地语、印尼语场景优化

端云结果合并

端侧抽取结果传到云端后处理 → 云端合成最终结果 → 返回端侧 AIUnit → 流体云服务下游分发

内容聚合与智能整理:从碎片到结构化记忆

关联记忆

多规则融合召回(标题/实体/标签匹配)+ Rerank + LLM 精排

合集归纳

用户手动创建、A 标签推荐、洞察推荐三链路统一 → Reranker + Verify 两阶段聚合

合集分类与总结

分类 LLM 识别知识/旅行/健康合集 → 自适应摘要模板

效果数据

  • 合集创建准确率:83% → 97%
  • 新记忆加入准确率:76% → 95%+

工程实践与效果验证

流程化算法开发

Model Selection → Prompt Eng(人工 + APE)→ Business Benchmark

自动化评测体系

LLM-as-a-Judge 的多维度质量保障,badcase 反馈闭环

核心效果指标

  • 场景分类准确率
  • 结构化信息提取准确率
  • 合集创建准确率

听众收益

  1. 端云任务分流设计方法:如何定义简单/复杂场景边界,如何通过分类标签生成动态 Prompt,如何在保证效果的同时最大化端侧推理占比(80% 流量端侧化)

  2. 全模态理解的技术挑战与解决方案:如何基于自研 AndesVL 多模态大模型构建端侧推理能力,端侧 AIUnit 支持的任务类型,以及端侧推理优化策略

  3. 内容聚合的双路方案:关联记忆的多规则融合召回 + Rerank + LLM 精排架构,合集归纳的三链路统一 + Reranker/Verify 两阶段聚合方案

  4. 合集分类与自适应总结的实现方法:分类 LLM 如何识别知识/旅行/健康合集,不同垂类如何切换摘要模板,以及如何避免模型幻觉

  5. LLM 应用的工程化实践:流程化算法开发工作流、自动化评测体系(LLM-as-a-Judge)、badcase 反馈闭环等可直接复用的方法论