可观察性策略:从可观察性到有意义的可靠性
- 2025-10-22 11:14:00
- 刘 原创
- 76
问题
当我们听到“可观察性”时,首先想到的是仪表板、彩色图表,甚至可能是闪亮的拓扑图。我还记得几年前我第一次看到拓扑图的时候--它很漂亮,几乎是神奇的,迹线是如何将一个系统缝合在一起的。
这并没有错,但它造成了一个危险的错觉:一个“神奇工具”将保证成功。很多时候,项目失败是因为缺少战略,工具占据了中心位置。事实上,具有真实的策略和设计的项目并不多见。
但多年来,领导大规模的可观察性和SRE计划,我也看到了太多的项目失败。根本原因几乎总是相同的:缺乏战略和工具驱动的方法。
在实践中,许多组织创建了一个SRE或可观察性团队,快速选择一个评估最少的工具,并期待结果。如果没有战略,结果是可以预测的:团队不一致、门票量上升、另一种管理工具,甚至是旨在减少这种情况的解决方案所带来的新麻烦。
在左图中,我们看到了最近大多数项目的共同模式:组织觉得有必要“做SRE”或“实现可观察性”,所以他们组建了一个专门的团队,并在进行基本评估后迅速选择一个工具-相信只有这样才能取得成功。
右边的图片显示了没有策略的现实:团队错位,门票量攀升,多一个工具要维护,甚至是由旨在减少它的实现所产生的新的辛劳。
没有任何工具--无论多么强大--能够使项目成功。工具放大。通过战略和调整,他们扩大了成功。如果没有他们,他们会扩大混乱。
通常,可观察性计划始于高管购买昂贵的工具。团队急于部署代理、构建仪表板和配置警报。但很快:
- 票量增加。
- 呼叫了错误的团队。
- 辛劳不减反增。
- 可靠性没有提高。
解决方案:有意图地设计可观察性
可观察性应该像架构一样设计-有意的。从正确的问题开始:
- 我们要实现什么样的商业目标?
- 技术环境是什么-传统、混合还是云原生?
- 我们有合适的团队参与吗?
- IaC和自动化管道等现代做法是否到位?
- 我们会把可观察性作为代码使用吗?
- 战略定义-调整业务目标,定义目标,确保预算。
- 解决方案架构-定义数据收集、集成、OpenTelemarket和可观察性即代码。
- 文化转型-训练团队,重组小队,嵌入验尸。
- 持续改进-跟踪成熟度,采用新的实践,并适应不断发展的业务成果。
- 跨级别对齐
跨级别对齐
想一想,你们中有多少人参加过SRE或可观察性项目,领导要求快速取得成果?了解可观察性也是一段旅程。那么,如何实现短期胜利和可持续成果呢?另一个秘密因素:结盟+买入。战略和设计是至关重要的,但一致性可以成就或破坏一个项目。
每个人- IT操作人员、架构师、SRE、开发人员和高管-都必须共享同一个指南针。结盟不是官僚主义;它加速了进步。
速赢建立信任:高管看到结果,团队感受到所有权,您获得追求长期目标的空间。如果没有对齐,您会耗尽追逐ROI的精力,而不会有真实的结果。有了它,转型加速。
可观测性成熟度模型
进步不是一朝一夕的事。这就是为什么我使用成熟度模型作为路线图。这不是冲到顶端,而是有意识地进化。我们的目标是了解我们今天所处的位置,进展情况以及哪些步骤对业务最重要。
这是我的模型,但您可以根据您的环境、客户需求或可用的专业人员来定制您的模型。其目的不是排名或判断,而是提供一张地图-一个指南针,显示下一步投资的方向。
成熟度不是统一的。一个小队可以在4级运作,而另一个小队则保持在2级。这很正常。该模型适用于企业和应用程序级别。
想象一下真实的停电。每个成熟度级别如何帮助您做出响应?在低水平下,您可能会进行监控,但主要会产生噪音。在更高的级别上,您可以更快地检测、分析和恢复。当系统失败时,成熟的好处变得显而易见。
基准可靠性
现在,让我们通过一个更丰富的透镜-基准测试关系来查看相同的中断场景。
Golden Signals、RED和USE等框架有助于评估数据,而DORA指标则用于评估工程性能。它们共同将技术和业务影响联系起来。
你知道什么是DORA指标吗?
现在让我们探索相同的中断场景,但有更深的细节:
在左边。
我们为我们的业务应用提供工具。例如,结账服务发出转换率等事件,这些事件与传统遥测一起被摄取到可观测性平台中。
在右边。
在右侧,SLO充当所有这些度量的交汇点,分为四个领域:可观察性度量、DORA度量、业务度量和团队成熟度度量。
- 可观察性分析:SLI显示SLO违反(例如,95%的请求超过300毫秒,错误率上升)。
- DORA:变更失败率趋于高,导致不稳定。
- 商业损失:结账转换率下降12%,500名用户受到影响,5万美元的损失,负面品牌影响。
- 团队成熟度问题:错误预算超出,仓促部署,SRE实践薄弱-不仅是技术信号,也是文化信号。
案例研究:有战略vs.无战略
在一家财富100强公司,我们有领导层的支持,团队的一致性,以及明确的可观察性战略。结果是惊人的:工作量减少了95%,自动解决了18,000个事件,RCA速度提高了50%,资源优化节省了TB的内存和CPU。
它并不完美--没有一个项目是完美的--但是有了明确的目标、预算、支持和合适的人,解决方案是围绕真实的需求而构建的,而不是工具炒作。
在另一家大公司,领导层通过购买工具和创建团队来“观察”。他们忽略了应用程序所有者,运营和业务调整。结果呢?错位,浪费精力,最终失败。
听起来耳熟吗?后来修理它是昂贵的-像课程纠正,而房子已经着火。
战略必须适应当地情况:巴西面临的挑战
在巴西,我看到全球挑战被放大:
- 传统环境-银行、电信公司和政府仍然依赖大型机;迁移缓慢。
- 以工具为中心的采购-集中化、规避风险的采购有利于大供应商作为“安全”的选择。
- 不一致的成熟度-团队从基本的测试到AIOps的试验。
- 组织孤岛-层级结构和对责备的恐惧使跨团队的协调更加困难。
结论
有很多东西可以讨论--工具、指标、黄金信号、AIOps、成熟度模型。但这里有一个核心信息:
可观察性不是目标。可靠性是。
可观察性是指南针。
目标是弹性系统、优化成本和客户信任。
战略、设计、文化和一致性使旅程成功。当可观察性与业务保持一致时,它就不再是噪音,而是成为可靠性和价值的最强推动力之一。
原文出处: https://blog.devgenius.io/observability-strategy-from-metrics-to-meaningful-reliability-e72d59cb5939
| 联系人: | 阿道 |
|---|---|
| 电话: | 17762006160 |
| 地址: | 青岛市黄岛区长江西路118号青铁广场18楼 |