作者|許國愛「騰訊金融科技副總裁」
文章|《中國金融》2023年第23期

過去十年,中國移動支付發展迅速,用戶規模、交易規模、處理效率、覆蓋面和滲透率等指標大幅領先全球。目前,支付網絡連接了數千萬商戶和數億個人用戶,成為我國數字經濟不可或缺的底層設施,安全便捷的“中國式支付”也成為數字經濟時代一張靚麗的中國名片。移動支付業務快速發展,也對支付系統的安全穩定提出了更高的要求。本文將結合我國移動支付容災系統建設中存在的技術重點難點,淺析金融科技在化解支付風險、保障客戶資金和信息安全方面的作用。
我國移動支付業務的特徵及系統要求
與世界其他國家和地區相比,中國的移動支付業務具有三大特點——大規模、小金額、高並發。
中國支付清算協會發布的《中國支付產業年報2023》(以下簡稱年報)顯示,2022年我國非銀行支付機構共完成網絡支付業務11278.19億筆,金額364.21萬億元,其中絕大部分都是移動支付。而從目前所能獲得的公開數據看,美國2018年非現金支付量是1742億筆,即便考慮到近年的增長,顯然也會遠低於中國的數據。可以預計,在將來很長一段時間內,我國會一直保持全球移動支付第一大市場的地位。巨大的交易規模和海量的交易數據,對移動支付系統的效率和穩定性提出了嚴格的要求。從年報可以看出,非銀行支付機構處理的移動支付業務絕大部分來自個人的日常消費、網絡購物、生活繳費等支付活動,平均單筆金額只有323元,遠遠低於銀行處理的企業支付業務,而且地域和時段都非常分散。這就意味着,移動支付系統必須保證7×24小時不間斷可用。
我國移動支付業務的另一大特徵是特定時間的交易高並發。電商貿易的蓬勃發展為我國經濟社會注入了強大的活力,各式各樣的讓利促銷活動激發了廣大消費者線上“買買買”的熱情。“社交+支付”的玩法更是讓移動支付滲透到千家萬戶。每逢電商大促的“雙11”“618”以及春節紅包集中的除夕夜,移動支付必定會出現流量洪峰。以2021年網聯公布的數據為例:春節假期(農曆除夕至正月初六)網聯平台共處理資金類跨機構網絡支付交易79.37億筆、金額4.98萬億元,其中農曆除夕交易筆數最高,單日超過16.51億筆,交易處理峰值超過6.74萬筆/秒;“618”電商大促期間(6月1日至6月18日),網聯平台處理資金類跨機構網絡支付交易329.33億筆、金額23.23萬億元;“雙11”活動期間,網聯、銀聯共處理支付交易270.48億筆、金額22.32萬億元,“雙11”當天網聯、銀聯最高業務峰值合計達到9.65萬筆/秒。短時間內出現如此量級的支付活動在全世界絕無僅有,這也決定了支付系統必須按照最極致的情況進行設計搭建。比如,財付通的支付系統,就要求能夠穩定支撐完成每秒20萬筆移動支付,在將用戶支付平均耗時提升至毫秒級別的同時,還要確保系統故障秒級“自愈”。
除此之外,支付業務還涉及大量敏感的用戶個人信息,因此其業務管理還必須滿足以下兩個要求:一是當用戶數據跨城、跨中心傳輸時,要確保數據的一致性,避免出現“數據傳輸抖動”;二是確保用戶數據存儲的安全性,避免數據丟失、泄漏、篡改或被非法利用。
支付安全綜合管理體系的搭建與優化
面對海量業務壓力和金融級要求,支付安全需要一個基於金融科技的綜合管理體系來保障,既要有大規模服務器集群、異地災備中心等硬件設施,也需要金融級分布式軟件架構設計、自主可控密碼算法、安全可靠的數據存儲和傳輸等技術和措施的支持,還應當強化應急預案、安全培訓、容災演練等綜合技術管理手段,保證在各類異常場景下整個支付系統都可以不間斷地正常工作。
● 部署容災體系
目前,大部分金融機構容災採用“兩地三中心”部署架構:在同城部署兩個不同的互聯網數據中心(Internet Data Center,IDC),分別處理業務請求,也就是“雙活”;同時在另外一個不同的城市部署一個數據中心,通過複製數據來做“冷備”。如果同城的兩個數據中心機房都出現故障,系統可以迅速切換至異地中心,保障業務的連續性。但是,這種模式仍然存在兩個問題。
首先,當一個數據中心出現故障時,可能會有超過一半的業務都不可用,短時間內需要完成核對數據的一致性、數據的主備切換等一系列複雜操作才能恢復業務;如果需要異地切換,長期處於“冷備”狀態的數據中心未必能夠順利響應承接。解決這一問題,主要靠增加數據中心及設計“多活”架構。以財付通為例,從最早期的簡單服務器擴容到同城“多活”架構、“兩地四中心”多活架構,拓展到“兩地十二中心”多活架構,再發展到目前基於雲原生的同城自動切換。這樣的系統實現了機房級“多活”乃至城市級“多活”,每個機房都會承擔實時的流量,從而確保單機房發生故障時其他機房不受影響,並且其他機房能夠快速接管故障機房的業務請求。在“兩地十二中心”框架下,單機房基礎設施故障以及軟件系統故障的影響力可以降到10%以下,整個系統也具備快速恢復的能力。
其次,跨城數據傳輸不可避免地會出現網絡延遲,比如一個ping包(一種用於測試網絡連通情況和分析網絡速度的程序)從深圳傳到上海耗時40毫秒,還需要確保數據正確寫入磁盤,如果處理不好業務就會出現延時,影響用戶體驗。對此,財付通採用了全鏈路條帶化請求處理路由的策略,在把用戶分到兩個城市時盡量按照用戶的歸屬層次接入。比如,深圳的用戶就從深圳接入,在深圳完成支付交易邏輯和賬戶記賬的處理。一筆業務請求的處理在一個數據中心內完成,盡量避免或減少實時處理鏈路的跨中心或跨城調用,從而有效提升系統性能並最大程度實現故障隔離。
● 一鍵自動容災
支付數據分到多個城市和數據中心後,如果出現系統故障,需要在數據中心和城市間進行切換。業界要求支付系統的可用性必須達到99.999%(即業內所說的“5個9”)。換言之,面對全年24小時連續不斷的海量支付業務,支付系統累計不可用時間應小於5.26分鐘。這意味着沒有人工干預的反應時間,必須依靠自動容災技術才能確保“絲滑地”完成全業務系統的快速切換。
為此,財付通建立了全鏈路自動切換調度平台。當故障發生時,系統可實現同城自動和跨城一鍵快速切換,分鐘級完成機房級和城市級的故障恢復。在這一過程中,數據庫的能力建設至關重要。為了保證數據強一致性和系統高可用性,財付通研發出金融級分布式數據庫高可用解決方案:通過架構、算法的創新實現故障發生時系統自動切換,通過多層備份體系讓數據恢復到任意時刻,通過分鐘級數據核對確保海量數據一致性,通過多種容災架構應對數據庫假死、機房半斷網故障等極端場景。這是全球最大的MySQL(一種關係型數據庫管理系統)集群。目前,這一系統自動切換已經超過800次,自動修復超過一萬次,成功率達到100%。
圖1 財付通金融級高可用數據庫解決方案

● 自動化模擬故障演練
在真實的支付業務中,系統發生故障的概率並不高。因此,容災系統日常不僅需要進行人工經驗分析,同時還應當具備自動預判“灰犀牛”和“黑天鵝”的能力,甚至主動製造障礙以測試系統的強免疫力,對潛在未知風險進行排查和防禦。其中,極端情況下的跨城切換是演練的重點。
為了保證真實故障出現時支付系統的切換調度能力有效可用,並且最大限度地降低人為因素對切換的影響,財付通搭建了自動化切換演習調度平台,實現了無人值守的自動演習,將演習的人力投入降到零。目前,財付通支付系統平均每月要進行300~400次自動化模擬故障演練,跨城切換演習常態下每周1次,切實做到防微杜漸、未雨綢繆。
相關建議思考
支付安全關係重大,除了系統搭建、技術改造和完善管理之外,還應注重技術特別是密碼算法這類底層技術的自主可控。信息行業所指的密碼並非用戶登入某系統使用的密鑰,而是對信息進行加密、分析、識別和確認以及對密鑰進行管理的技術。此前,因為國產密碼技術性能較低,國內企業幾乎都使用國外技術。但近年來,隨着國家對國產商用密碼技術的高度重視,特別是2020年1月1日《中華人民共和國密碼法》正式實施後,金融、支付、醫療等領域紛紛進行國產密碼算法改造。財付通通過自研商用密碼解決方案,避免了依賴國外技術可能出現的“後門”“卡脖子”等風險,其主要指標——簽名算法每秒處理筆數——在全球公開產品中排名第一,被微信、QQ等很多頭部應用所採用。
財付通的實踐經驗表明,隨着金融科技的廣泛深入應用,中國的支付機構已經有足夠的能力在硬核科技上與全球領先企業同台競技,其銳意進取的產品創新、場景創新和科技進步,為我國支付行業高質量發展注入了強大的核心動力。展望未來,中國移動支付產業要保持在全球的領先優勢,相關機構應持續關注金融科技的最新成果,不斷加大研發投入;要加強協作,通過技術分享交流,共築多方共贏的支付生態圈;要積极參与相關行業標準、國際標準制定,獲得在國際技術領域的話語權,憑藉自身的硬實力對外輸出“中國標準”,展示“中國式支付”的軟實力。■
(責任編輯 張 林)