某大型遠洋海運集團於 2016 年 2 月在上海成立,是國務院國有資產監督管理委員會直接管理、涉及國計民生和國民經濟命脈的特大型中央企業。該遠洋海運集團以航運、港口、物流等為基礎和核心產業,以航運金融、裝備製造、增值服務、數字化創新為賦能和增值產業,全力打造「3+4」產業生態,致力於構建世界一流的全球綜合物流供應鏈服務生態。
當一個事務流程的響應性能下降後,會影響多少的業務訂單量?作為擁有千萬級甚至億級數據量的海運集團,更需要的是從端到端、多視角、多維度的數據採集和分析,以此解決排障難、定位慢及海量業務增長等難題。本文將分享諧雲APM矩陣式應用監控如何助力該海運集團「乘風破浪」。
多重挑戰
為得到完整的應用性能視圖和快速定位問題,不能夠僅依靠簡單的一個監控工具來解決問題,而是需要更多監控工具的組合使用和數據關聯,從端到端、多視角、多維度進行數據採集和分析。該遠洋海運集團當時的應用監控手段明顯還處於相對落後的狀態,無力應對海量的業務增長:
- 缺少故障回溯的手段,難以發現故障當時的系統整體運行狀況,包括傳統的基礎設施監控,動環監控,網路性能監控,日誌監控等。
- 現有監控平台整合力不足,現有的監控平台很多,但卻彼此孤立,重點業務系統問題定位困難,定位時間長,缺少高效的故障定位手段。
- 生成數據的速度越來越快,數據種類越來越多,需要分析事件,指標,跟蹤事務。有線數據、網路流量數據、流遙測數據、客戶情緒等,IT 架構內的變化率越來越高,由於採用雲原生與部分臨時架構,在保持可觀測性和提高參與度方面面臨挑戰。
解決方案
針對海運集團實際情況及需求點,諧云為其量身定製以APM為核心的新一代應用性能監控解決方案,從上至下同時整合中間件性能數據、基礎設施層性能數據技術,網路層等性能數據,實現全棧式性能數據管理。
在統一監控體系中,APM 套件承擔著最重要的角色,將傳統的基礎設施監控,動環監控,網路性能監控,日誌監控等等整合起來,在性能可視化、根因分析和運維自動化等方面發揮著關鍵的作用。
端到端追蹤技術
根據系統平台架構中快響應、易擴展的跨組件執行軌跡監測方法,利用大規模分散式系統的監控基礎架構中,調用端到端全鏈路的執行軌跡思路,研究基於全鏈路分析的端到端追蹤技術。
支撐億級數據量
基於執行時間的全鏈路調用軌跡特點,利用倒排索引技術快速定位應用異常。由屬性值來確定記錄的位置,從海量數據(千萬級甚至億級)中實時快速查詢,並更好地對數據進行壓縮存儲,減少數據存儲壓力。
精準異常告警
使用基於複雜事件處理引擎的性能異常分析與異常告警方式,通過事件處理匯流排,接入適配器以及引擎註冊方式處理;引擎處理的過程需要藉助複雜事件處理引擎的內部緩存以及狀態引擎、規則引擎等對事件進行解析、篩選處理,執行相應異常告警動作。
運維知識圖譜
基於機器學習的方法,通過多種演算法挖掘運維歷史數據,從而得出運維主體各類特性畫像和規律,以及運維主體之間的關係,形成運維知識圖譜。
價值成效
通過諧雲APM矩陣式應用監控,客戶在解決難題的同時實現了以下價值收益:
- 系統異常預警能力:通過應用性能監控平台的構建應用分析模型能力,實時掌握應用健康狀態,實現智能預警能力,避免業務人員遺漏問題。
- 應用態勢感知:通過監控平台對應用運行情況實現了全面掌控,提升了業務人員對應用系統的精準感知和分析能力。
- 排障流程優化:幫助業務人員將排障時間得到了大幅度的降低,在過程中形成了具有行業特色場景下的排障體系架構。
針對雲上業務,諧雲可提供全面的基於指標、追蹤、日誌三大類型數據的監控能力,通過三個維度的數據聚合分析,構建包括主機資源、虛擬資源、網路資源等在內的鏈路閉環與細化分析。同時,根據客戶具體大數據平台建設需求,提供適配的集群方案規劃、資源調度策略、彈性擴展策略等能力。
目前,諧雲監控產品已為金融、運營商、製造業等多行業客戶提供了雲原生架構轉型和數字化過程中的性能監控服務,是新一代雲上應用性能監控的領導者。