某大型远洋海运集团于 2016 年 2 月在上海成立,是国务院国有资产监督管理委员会直接管理、涉及国计民生和国民经济命脉的特大型中央企业。该远洋海运集团以航运、港口、物流等为基础和核心产业,以航运金融、装备制造、增值服务、数字化创新为赋能和增值产业,全力打造“3+4”产业生态,致力于构建世界一流的全球综合物流供应链服务生态。
当一个事务流程的响应性能下降后,会影响多少的业务订单量?作为拥有千万级甚至亿级数据量的海运集团,更需要的是从端到端、多视角、多维度的数据采集和分析,以此解决排障难、定位慢及海量业务增长等难题。本文将分享谐云APM矩阵式应用监控如何助力该海运集团“乘风破浪”。
多重挑战
为得到完整的应用性能视图和快速定位问题,不能够仅依靠简单的一个监控工具来解决问题,而是需要更多监控工具的组合使用和数据关联,从端到端、多视角、多维度进行数据采集和分析。该远洋海运集团当时的应用监控手段明显还处于相对落后的状态,无力应对海量的业务增长:
- 缺少故障回溯的手段,难以发现故障当时的系统整体运行状况,包括传统的基础设施监控,动环监控,网络性能监控,日志监控等。
- 现有监控平台整合力不足,现有的监控平台很多,但却彼此孤立,重点业务系统问题定位困难,定位时间长,缺少高效的故障定位手段。
- 生成数据的速度越来越快,数据种类越来越多,需要分析事件,指标,跟踪事务。有线数据、网络流量数据、流遥测数据、客户情绪等,IT 架构内的变化率越来越高,由于采用云原生与部分临时架构,在保持可观测性和提高参与度方面面临挑战。
解决方案
针对海运集团实际情况及需求点,谐云为其量身定制以APM为核心的新一代应用性能监控解决方案,从上至下同时整合中间件性能数据、基础设施层性能数据技术,网络层等性能数据,实现全栈式性能数据管理。
在统一监控体系中,APM 套件承担着最重要的角色,将传统的基础设施监控,动环监控,网络性能监控,日志监控等等整合起来,在性能可视化、根因分析和运维自动化等方面发挥着关键的作用。
端到端追踪技术
根据系统平台架构中快响应、易扩展的跨组件执行轨迹监测方法,利用大规模分布式系统的监控基础架构中,调用端到端全链路的执行轨迹思路,研究基于全链路分析的端到端追踪技术。
支撑亿级数据量
基于执行时间的全链路调用轨迹特点,利用倒排索引技术快速定位应用异常。由属性值来确定记录的位置,从海量数据(千万级甚至亿级)中实时快速查询,并更好地对数据进行压缩存储,减少数据存储压力。
精准异常告警
使用基于复杂事件处理引擎的性能异常分析与异常告警方式,通过事件处理总线,接入适配器以及引擎注册方式处理;引擎处理的过程需要借助复杂事件处理引擎的内部缓存以及状态引擎、规则引擎等对事件进行解析、筛选处理,执行相应异常告警动作。
运维知识图谱
基于机器学习的方法,通过多种算法挖掘运维历史数据,从而得出运维主体各类特性画像和规律,以及运维主体之间的关系,形成运维知识图谱。
价值成效
通过谐云APM矩阵式应用监控,客户在解决难题的同时实现了以下价值收益:
- 系统异常预警能力:通过应用性能监控平台的构建应用分析模型能力,实时掌握应用健康状态,实现智能预警能力,避免业务人员遗漏问题。
- 应用态势感知:通过监控平台对应用运行情况实现了全面掌控,提升了业务人员对应用系统的精准感知和分析能力。
- 排障流程优化:帮助业务人员将排障时间得到了大幅度的降低,在过程中形成了具有行业特色场景下的排障体系架构。
针对云上业务,谐云可提供全面的基于指标、追踪、日志三大类型数据的监控能力,通过三个维度的数据聚合分析,构建包括主机资源、虚拟资源、网络资源等在内的链路闭环与细化分析。同时,根据客户具体大数据平台建设需求,提供适配的集群方案规划、资源调度策略、弹性扩展策略等能力。
目前,谐云监控产品已为金融、运营商、制造业等多行业客户提供了云原生架构转型和数字化过程中的性能监控服务,是新一代云上应用性能监控的领导者。