|
|

從資料倉儲到數據中台,論企業數據轉型 ETL 的角色

Trinity 數據整合研究室
「數據即業務,業務即數據」,近年來隨著企業對數據的分析應用日益深化,數據轉型儼然大勢所趨。企業數據轉型不是口號,業界揭櫫了由傳統資料倉儲升級至數據中台的方向,使後者成為熱門議題。數據中台的理念是透過組織調整和資料倉儲、數據同步等技術,建構出統一管理數據來源和應用的中台(相對於前台的業務導向服務與後台的資料庫),以支援企業的各式業務應用。簡言之,數據中台是整合與治理企業內部的跨域數據,將其邏輯組裝為具業務價值的服務之整體框架

在數據中台的浪潮下,業者們以不同角度切入,提供了各自的解決方案。這導致許多人對其角色以及其與資料倉儲的差異感到困惑,甚至有人誤以為採用資料虛擬化技術來建置數據中台後,資料倉儲與 ETL 架構就不需要存在了。基於此,我們有必要釐清數據中台的演變,前述問題的迷霧就隨之消散而答案隨即浮現。

數據中台的演化

2015 年中,馬雲參訪芬蘭 Supercell 公司,受其中台架構應用的啟發,阿里巴巴於年底向業界推動了數據中台戰略。當不斷迭代升級其架構後,於 2018 年提出了「業務-數據雙中台」新戰略,將其切分為業務中台與數據中台。而後業務中台再陸續拆分出移動中台、技術中台、風險能力中台、研發效能中台等,到 2020 年已進化到「碎片化中台」的應用場景了。其中數據中台由數據處理技術架構與資料倉儲組成,負責提供前台應用和業務中台對資料的需求。

由數據中台「始作俑者」阿里巴巴的實踐,在「數據中台」🢂「業務-數據雙中台」🢂「碎片化中台」的進化過程中,資料倉儲的角色一直沒改變 – 作為數據彙整與供應者。為何企業數據轉型無法撼動「資料倉儲-ETL」的角色呢?

資料虛擬化的實務考量

由資料虛擬化的概念來看,使用者可透過單一平台,藉由在多個資料庫上建構的虛擬層,直接檢視、轉換與整合資料,資料不落地且能高彈性支援應用之需求。然而此構想理論上可行,實務上卻可能面臨下述挑戰:
  1. 資料庫效能衝擊
    虛擬層需要建立大量資料庫連線以滿足數據中台的線上存取與運算需求,必對資料庫原有應用系統的效能造成壓力。這些應用系統原本是依據特定業務需求設計,若加入數據中台的負載,效能或將被拖累,進而影響系統之穩定。
     
  2. 資源成本增高
    虛擬化技術理想中的「資料不落地且高彈性應用」,因為資料未經預處理,必導致整體系統資源 (主機運算與網路傳輸) 大幅增加,形成浪費,也或將造成資源瓶頸。舉例客戶個資需做遮罩,同一筆資料每次提取都須再做一次遮罩;某批資料必須經過清洗或特定轉換 (例如依出生年月日算出年齡/生肖星座) 才可使用,這些資料每次提取都須再做一次清洗或運算。
     
因此,資料虛擬化的應用必須謹慎規劃:應用場景不會大幅增加系統資源負擔與不影響原應用系統運作的微服務,可採用直連資料庫設計;其餘微服務的資料須建立預處理機制,亦即連接「資料倉儲-ETL」資料。

ETL 維運與數據整合是保障企業數據資產的基石

綜上所述,關鍵在於支援企業各種運用的數據資產,其資料彙整前大多須經預處理,這包含了資安 (個資遮罩/加密、權限控管等)、資料品質 (資料清洗、轉換、校正)、資料聚合/統計 (週/月彙整統計、分類等) 諸多重要程序。因此不論企業數據轉型如何演化,某種 Data Staging 的機制勢必存在,其技術不論是 ETL 或 Stream、其資料結構不論是 Data warehouse 或 Data lake,終歸是彙整為一或多個「數據資產倉儲」;「資料倉儲-ETL」這塊基石只是隨之日新月異,而不會消失。

讓我們回顧近三十年前的商業智慧 (BI,Business Intelligence) 時代,「應用系統資料庫 🢂 ETL 🢂 資料倉儲 🢂 資料超市 🢂 商業分析應用」對比現今「後台應用系統資料庫 🢂 數據中台 🢂 業務中台 🢂 前台業務導向服務」,可見企業數據運用的底層邏輯何其相似,萬變不離其宗!如下圖。
本公司 Trinity 從商業智慧、雲端運算與大數據分析到現今數據中台框架與 AI 時代,持續與時俱進,早已成為國內 ETL 領導品牌,為眾多企業的數據資產做出貢獻。我們的使命:不論資料分析應用的潮流如何演變,Trinity 都將不斷跟隨資料處理科技的演變而升級,為企業數據資產奠定堅實的根基。