实验室
由于其实验性质,分析开发工作(包括数据探索、预测模型实验以及通过快速迭代开发原型)必须在与其他系统分开的“实验室”环境中执行,以免妨碍正常业务 操作。 实验室技术必须灵活且可扩展,以应对分析方法不断变化的需求(例如,新数据、新建模技术),并且必须模块化,以使开发的解决方案能够通过 DevOps 移植到工厂。
工厂
在实验室开发完成后,分析模型将进入“工厂”,为一年 52 周、每周 7 天、每天 24 小时运行分析作业提供环境。 为了将解决方案大规模投入生产(即,使其能够定期、可靠地供用户访问),它必须具有鲁棒性(能够处理典型错误,包括传入的实际数据中的差异)、可维护、通过以下方式有效执行: 持续部署流程,并与核心系统集成,并且必须包括性能管理和风险控制,以避免对运营产生任何不利影响。
工作方式
MLOps
MLOps 是指应用于机器学习和人工智能的 DevOps。
DevOps 是“软件开发”和“IT 运营”的缩写,是将软件工程实践应用于 IT 运营,例如打包和部署生产软件。
MLOps 旨在通过自动化软件从业人员(包括数据工程师和数据科学家)工作流程中的可重复步骤来缩短分析开发生命周期并提高模型稳定性。 虽然 MLOps 实践差异很大,但它们通常涉及自动化集成(频繁签入和测试代码)和部署(打包代码并在生产环境中使用它)。
角色
实验室和工厂的工作由跨职能团队执行,该团队由数据和软件专业人员(例如数据科学家、机器学习工程师、云架构师)以及具有不同数据科学专业知识水平的业务专业人员(例如,学科领域的专家)组成。 事务专家、翻译)。
定义
组装、清理和组合来自各种源系统的数据以创建用于分析的数据集的过程。 数据源可以是内部的,也可以是外部的,数据通常组合成一个经过清理的数据集以用于分析模型开发。
为什么它很重要
确保能够快速、轻松且频繁地摄取各种数据集对于模型开发非常重要。 分析模型的质量取决于可用数据的数量和相关数据集的种类。 大多数实验室从手动数据提取开始,然后快速自动化摄取过程,以便定期(例如每天)进行,以确保可用于分析模型开发的数据是最新的。