MLOpsNetflix机器学习数据治理

Netflix 推出"模型生命周期图",扩展企业级机器学习

Matt Foster (译: 平川)··原文链接
收录于 2026/5/17 13:02:07

背景

随着机器学习部署在整个组织内的扩展,Uber 的 Michelangelo ML 平台也强调了集中式生命周期管理、特征复用和可重现性。这类方法也出现在 Spotify Backstage 等内部开发门户中,工程团队越来越多地采用基于图的表示方法来建模服务、基础设施、所有权以及运维元数据之间的关系。

模型生命周期图

模型生命周期图将机器学习实体表示为相互连接的节点和关系,而非孤立的管道阶段。Netflix 认为,图结构特别适合机器学习系统建模,因为机器学习资产很少是孤立存在的:一个模型可能依赖于多个数据集、衍生特征、评估工作流以及下游生产服务,而这些要素都会随着时间推移独立演变。

核心优势

  • 依赖追踪:工程团队能够追溯血统关系,更好理解变更对运营的影响
  • 可发现性:帮助定位可重用的机器学习资产
  • 跨组织可见性:检查模型在整个组织中的构建和使用情况
  • 自主服务模式:让工程师和数据科学家能够独立发现数据集、理解依赖关系并复用现有组件

行业趋势

该架构反映了业界向以元数据为中心的机器学习和数据平台发展的趋势:

  • LinkedIn DataHub:将数据集、数据管道和所有权元数据之间的关系建模为图结构
  • OpenLineage:聚焦数据血统的项目
  • Uber Michelangelo ML:强调集中式生命周期管理、特征复用和可重现性
  • Spotify Backstage:采用基于图的表示方法来建模服务间关系

总结

Netflix 的"模型生命周期图"将重点放在可追溯性、依赖关系映射和组织级可视化上。这种设计表明,随着机器学习系统日益深入地嵌入到企业软件栈的各个层面,组织可能会越来越多地将元数据、血统追踪和生命周期治理视为核心的架构要求,而非次要的运营关注点。