OPPO 小布记忆:全模态碎片化内容的理解与智能整理实践
问题背景:为什么需要全模态记忆整理?
用户每天产生大量碎片化内容——截图、语音、视频、文档、多图……如何让 AI 理解这些异构多模态数据,并自动整理成有价值的"记忆"?
三大核心难点
- 模态异构理解:截图、语音、视频、文档、多图的异构挑战
- 跨模态关联:不同模态之间的语义连接
- 结构化生成:从碎片到有序记忆的转换
一键闪记整体架构:端云协同的多模态理解框架
产品层触发入口
- 小布记忆(单击/长按/双击)、魔方按键、小布助手(Query/主动/推荐气泡)
- 端侧采集框架(三指上滑/点击交互)、截屏(普通截屏/长截屏)
- AI 流体云(取餐码)、密码本(个人信息)、日历(日程/待办)、相机(大师参数)
端侧引擎:自研 AndesVL 多模态大模型
采集能力:
- 图文提取
- 语音转 ASR
- 视频
端侧算法(AIUnit):
- NER & OCR 能力
- 图片分类和总结
- 结构化字段
- 取餐码、账单、大师参数等
存储记忆数据
云端服务
- 内容安全
- 复杂推理任务:复杂订单提取、复杂 NER 提取、复杂日程待办
端云任务分流与多模态理解能力
分流模块
对输入图文信息进行分析,生成分类标签;根据分类标签进行任务规划。
简单场景(流量占比 80%):
- 直屏/焦点屏(单屏)+ 手机 + 任务数≤2 + 单标签单实例(如单个订单、单个火车票、单个日程)
- 需同时满足
复杂场景(流量占比 20%):
- 分屏/多浮窗/平板,或任务数>2,或多标签分类/多实例信息(如多个日程、多个火车票)
多模态理解能力
- 截图理解:11 类场景分类、POI/时间/价格等结构化信息提取、Dense Caption 端侧图片理解
- 语音理解:语音转 ASR、意图识别、关键信息提取(语音记-日程待办、语音记-记账)
- 图文理解:结构化提取、日程待办、取餐码、记账、文本-记账分类
- 视频理解:关键帧提取与内容摘要生成
- 文档/多图理解:长文档结构化、多图相册的批量理解
- 多语种 POI 提取:英语、印地语、印尼语场景优化
端云结果合并
端侧抽取结果传到云端后处理 → 云端合成最终结果 → 返回端侧 AIUnit → 流体云服务下游分发
内容聚合与智能整理:从碎片到结构化记忆
关联记忆
多规则融合召回(标题/实体/标签匹配)+ Rerank + LLM 精排
合集归纳
用户手动创建、A 标签推荐、洞察推荐三链路统一 → Reranker + Verify 两阶段聚合
合集分类与总结
分类 LLM 识别知识/旅行/健康合集 → 自适应摘要模板
效果数据
- 合集创建准确率:83% → 97%
- 新记忆加入准确率:76% → 95%+
工程实践与效果验证
流程化算法开发
Model Selection → Prompt Eng(人工 + APE)→ Business Benchmark
自动化评测体系
LLM-as-a-Judge 的多维度质量保障,badcase 反馈闭环
核心效果指标
- 场景分类准确率
- 结构化信息提取准确率
- 合集创建准确率
听众收益
-
端云任务分流设计方法:如何定义简单/复杂场景边界,如何通过分类标签生成动态 Prompt,如何在保证效果的同时最大化端侧推理占比(80% 流量端侧化)
-
全模态理解的技术挑战与解决方案:如何基于自研 AndesVL 多模态大模型构建端侧推理能力,端侧 AIUnit 支持的任务类型,以及端侧推理优化策略
-
内容聚合的双路方案:关联记忆的多规则融合召回 + Rerank + LLM 精排架构,合集归纳的三链路统一 + Reranker/Verify 两阶段聚合方案
-
合集分类与自适应总结的实现方法:分类 LLM 如何识别知识/旅行/健康合集,不同垂类如何切换摘要模板,以及如何避免模型幻觉
-
LLM 应用的工程化实践:流程化算法开发工作流、自动化评测体系(LLM-as-a-Judge)、badcase 反馈闭环等可直接复用的方法论