据 Mordor Intelligence 称,IT 运营人工智能 (AIOps) 市场将从 2020 年的 135 亿美元增长到 2026 年的超过 400 亿美元。 这种巨大的增长揭示了持续可用性或确保企业的关键应用程序和服务始终运行且性能良好的重要性日益增加。
实现高可用性已成为绝对的业务当务之急 – 只需询问 Slack 或 Facebook 当服务出现故障时会发生什么。 停机可能会导致企业收入损失(有时每小时可达数百万美元)、停止内部运营并损害客户忠诚度。
虽然保持可用性至关重要,但在复杂的分布式 IT 生态系统中避免服务中断也非常困难。 也就是说,如果没有合适的工具,这是很困难的。
这就是 AIOps 的战略使用可以提供帮助的地方。 下一代 AIOps 解决方案可以帮助 DevOps 和站点可靠性工程 (SRE) 团队通过在事件生命周期的早期检测潜在问题(在它们影响业务之前)来提高服务可靠性。 一个实施良好的工具可以通过确定谁应该响应、为团队提供背景信息来确定正确的行动方案以及识别模式以确保这些问题不再发生来简化事件响应。
通过保证更少的停机时间和更高的业务连续性,AIOps 正在迅速成为现代企业不可或缺的解决方案。 但有一个相当大的警告:成功的结果取决于良好的数据。
垃圾进垃圾出
成功的 AIOps 结果与失败的结果之间的区别在于该工具的设置和实施。 有些人期望他们可以购买 AIOps 解决方案,将数据投入到该技术中,然后它会神奇地发挥作用。 现实情况是:技术团队需要协调 AIOps 解决方案以及所有人工智能驱动的技术,以产生成功的业务成果。
当 AIOps 提供商在实施该工具之前帮助客户创建 AIOps 策略时,通常会出现最佳结果。 有什么问题? 预算是多少? 技术如何解决眼前的问题?
在许多情况下,AIOps 供应商帮助客户协调技术来解决他们的特定问题。 他们可以帮助技术团队了解好数据和坏数据之间的区别,选择正确的数据并设定期望。
如果实施正确,AIOps 可以帮助 DevOps 和 SRE 团队自信地解决事件,从而为更多高价值任务节省时间。 如果执行不力,人们会发现“垃圾进,垃圾出”这句古老格言背后的真相。
您需要多少数据?
成功的人工智能驱动成果通常与企业范围内数十亿美元的项目和大数据相关。 现实情况是,大多数现代企业都会产生大量数据来获得采用 AIOps 的好处。 公司本身也不必特别大。 只要AIOps工具能够访问高质量的数据,所需的数据量就非常低。
例如,我合作过的最活跃的 AIOps 客户之一也拥有最小的技术团队之一。 需要明确的是,该客户已应用现代 DevOps 实践,通过自动化每个可能的手动流程来消除繁琐的工作,从而维持了一个精简的 IT 部门。 但结果是,完全实施的 AIOps 解决方案在幕后完成了许多繁重的工作,并取得了惊人的成功。
如何获得更好的数据?
Google 的 SRE 手册描述了如何提高数据质量以及哪些数据对于监控最重要。 总体原则:保持简单。 更多的数据会导致混乱和复杂性,从而引发问题。
谷歌使用四个面向消费者的特定指标(所谓的“黄金信号”)来监控应用程序或服务的执行情况:
延迟:服务成功请求和失败请求所需的时间
流量:整个网络的总需求
Errors:失败请求的数量
饱和度:服务和网络的负载
虽然谷歌的黄金信号可能对某些企业有效,但它们肯定不是所有企业的解决方案。 毕竟,AIOps 可以满足广泛的 IT 用例。
企业不应将所有可用数据用于解决特定问题,而应找出自己的黄金信号。 企业的痛点是什么? 哪些指标可以衡量这些痛点?
但这只是信号(或 SRE 语言中的服务级别指示器)。 它告诉你发生了什么,而不是为什么发生。 传统观点认为,您应该将数据收集限制为仅收集黄金信号,因为其他一切都是噪音。 就问题识别而言确实如此,但其他遥测可以提供上下文或深入了解问题发生的原因。 这就是 AIOps 发挥作用的地方。 通过将上下文遥测与黄金信号聚类,您可以快速识别因果关系,而无需增加故障单或寻呼量。
然后,就是确保数据干净、完整和结构化。 对于空数据流,AIOps 工具无法应用其机器学习 (ML) 功能。 同样重要的是,计算机喜欢一致的结构化数据。 事实上,机器学习依赖于一致的特征(本质上是独立变量)来生成模型并做出准确的预测。
有什么好处?
为 AIOps 工具提供有针对性的、干净的和结构化的数据可以带来广泛的好处——它基本上可以在没有数据科学家的情况下完成企业的数据科学! 该工具的工作原理是跨孤立的技术堆栈摄取和标准化数据,同时人工智能 (AI) 和机器学习分析这些信息以确定系统的正常操作行为。 然后,该解决方案会组织数据,让 DevOps 和 SRE 团队从一个中央参与系统获得整个生产堆栈的 360 度视图。
AIOps 解决方案还可以减少事件噪音,仅隔离那些与解决相关问题相关的警报。 通过自动丰富数据,它可以为其显示的警报提供额外的上下文。 这种背景有助于 DevOps 和 SRE 团队快速理解和解决破坏性事件。
具有足够数据的强大 AIOps 工具还采用算法方法来进行根本原因分析。 通过根本原因分析,DevOps 和 SRE 团队可以立即知道从哪里开始进行故障排除,并且可以在打开事件工单后立即诊断问题。 通过深入诊断,团队可以加快事件响应速度,但也许更重要的是,解决这些根本原因以改进运营模式。
随着企业以越来越快的速度推出创新,消费者和内部团队依赖这些创新的应用程序和服务来无缝工作。 AIOps 是推动可用性改进的当代技术。 不过,虽然好处很大,但实现这些好处的关键是通过数据。