什么是DataOps

其实就是把把DevOps概念应用在数据生命周期中,它关注三个方面(及对应的指标):

  • 错误减少 -> 错误出现的频繁程度
  • 部署耗时降低 -> 多快能把新东西投入到生产中
  • 提高团队生产力-> 你的团队完成多少工作

DataOps的七步

  • 添加数据到逻辑测试,从DevOps到DataOps
  • 对代码进行版本控制
  • 管理分支与合并
  • 编写自动化测试,在开发过程和生产环境中,10%的工作应该用来编写测试
  • 使用多环境,本地副本和生产隔离
  • 代码复用和容器化
  • 过程参数化,让数据管道更加灵活

DataOps vs MLOps

从工程师的角度来看两者没有什么区别,就是将DevOps思想应用于数据。从一个更普遍的角度来看,答案是有区别。你可以用DataOps这个词来涵盖数据、模型、可视化和治理。DataOps的目标是优化其中的整体,而不仅仅是单一的部分。

DataOps工具

  • Great Expectations 自动化测试
  • Dataform assertions
  • Monte Carlo 整体解决方案
  • dbt tests

参考材料