網上有很多講「如何建設數據中台」的文章,大家的觀點各不相同。
- 有的說,數據中台是一種數據建設的方法論,按照數據中台設計方法和規範實施就可以建成數據中台了;
- 也有人認為,數據中台的背後是數據部門組織架構的變更,把原先分散的組織架構形成一個統一的中台部門,就建成了數據中台;
- 此外,你可能還聽到過一些大數據公司說,他們可以賣支撐數據中台建設的產品技術。
那麼,數據中台到底如何建設呢?
六大核心問題的解決都在於兩大理念的推進
其實早在2016年,阿里巴巴就提出了數據中台建設的兩大核心理念:One Data, One Service,這也是世界公認的解決數字化轉型現階段問題的方法,用一句話定義就是:所有數據只加工一次,數據即服務。
01
One Data
One Data就是指所有數據只加工一次。
例如,電商場景,數據中台就是要在整個電商業務形成一個公共數據層,協同跨部門的小數倉,實現數據的復用,不會因為不同的應用場景,不同的部門數據重複加工。
阿里數據中台全景圖
那麼,如何去做才能實現數據只加工一次呢?有以下五點:
- 分主題域管理
- 命名規範定義
- 指標一致
- 數據模型復用
- 數據完善
試想一下,現在你着手搭建數據中台,第一步,面對企業存在幾萬張表,同時又有幾十個數據開發維護這些表,你如何來確保這些表的管理效率?
- 首先,你需要劃分主題域。我們可以將這幾萬張表划到不同的主題域中,比如在電商業務中,商品、交易、流量、用戶、售後、配送、供應鏈都可以作為主題域。標準且準確的主題域劃分,是相對穩定的,儘可能地覆蓋絕大多數的表。(我們可以理解為數據目錄)
數據目錄:方便進行表的管理以及基於目錄的數據檢索
- 除此之外,還要對表的命名進行規範化統一,表的名稱中最好能夠攜帶表的主題域、業務過程、分層以及分區信息。
- 接下來,為了實現模型的復用,數據中台的數據存儲適合採用分層設計方式,常見的分層包括:ODS原始數據層、DWD明細數據層、DWS輕度匯總數據層、ADS/DM應用數據層/數據集市層。
- 最後,數據中台的數據必須儘可能的覆蓋所有的業務過程,數據中台中每一層的數據也要儘可能完善,讓數據使用者儘可能的使用匯總後的數據。
統一數據規範
綜上,One Data 體系的目標是構建統一的數據規範標準,讓數據成為一種資產,而不是成本。
02
One Service
One Service即數據即服務,強調數據中台中的數據應該是通過API 接口的方式被訪問。
那麼,為什麼數據一定要通過 API 接口的方式被訪問,不通過 API 接口,直接提供數據表給用戶又存在哪些問題呢?
如果你是數據應用開發,當你要開發一個數據產品時,首先要把數據導出到不同的查詢引擎上:數據量小的使用MySQL;大的可能用到HBase;需要多維分析的可能需要Greenplum;實時性要求高的需要用到Redis。
因此,不同的查詢引擎,應用開發需要定製不同的訪問接口。
使用數據API大大降低數據開發人員工作量
如果你是一個數據開發,當某個任務無法按時產出,發生異常時,想要了解這個表可能會影響到下游的哪些應用或者報表,但是卻發現單純依賴表與表的血緣無法觸及應用,根本無法知道最後的這些表被哪些應用訪問。
與此同時,當你想下線一張表時,因為不知道誰訪問了這張表,無法實施,最終造成了「上線容易,下線難「的窘境。
而 API 接口一方面對應用開發屏蔽了底層數據存儲,使用統一標準的 API 接口查詢數據,提高了數據接入的速度。
另一方面,對於數據開發,提高了數據應用的管理效率,建立了表到應用的鏈路關係,一旦出現問題需要追查數據,便清晰地通過鏈路最終到指定的表和字段。
使用數據API將數據血緣延續到應用層,問題修復更加方便
那麼,如何實現數據服務化呢?有以下四點:
- 屏蔽異構數據源
- 把控數據網關
- 提供面向用戶的邏輯模型
- 保證性能和穩定性
屏蔽異構數據源:數據服務必須要能夠支撐類型豐富的查詢引擎,滿足不同場景下數據的查詢需求,常見的有 MySQL、HBase、Greenplum、Redis、Elasticsearch 等。
數據網關:要實現包括權限、監控、流控、日誌在內的一系列管控能力,哪個應用的哪個頁面訪問了哪個模型,要做到實時跟蹤,如果有一些模型長時間沒有被訪問,應該予以下線。
使用數據的每個應用都應該通過accesskey和secretkey實現身份認證和接口權限的管理。另外,訪問日誌可以方便在訪問出現問題時,加快排查速度。
邏輯模型:從用戶的視角出發,屏蔽底層的模型設計的實現,面向用戶提供邏輯模型。它可以幫助應用開發者屏蔽底層的數據物理實現,實現相同粒度的數據構造一個邏輯模型,簡化了數據接入的複雜度。
性能和穩定性:由於數據服務侵入到用戶的訪問鏈路,所以對服務的可用性和性能都有很高的要求,數據服務必須是無狀態的,可以做到橫向擴展。
One Service 體系的目標是將散落的珍珠(數據)串成項鏈(鏈條),同時提高數據的共享能力,讓數據可以被用得好,用得爽!
篇幅有限,「數據中台的底層技術」和現在的行業趨勢「輕量級數據中台」將在後面陸續介紹,想要提前獲得關於數據中台的全套學習資料,可以點贊關注然後私信麥聰。
猜你想看:
麥聰軟件,全球領先的DaaS廠商,輕量級數據中台領導者。世界500強集團中已有30多家選用,兩年內幫助近400家企業數字化轉型更進一步。核心產品麥聰DaaS平台包含統一數據管理和統一數據服務兩大模塊,具備數據集成、數據開發、數據質量、數據服務相關功能,歡迎大家帶着企業數字化問題與我們一起討論。