|
|

數據工程基礎建設新紀元 –
流數據即時作業管理
(Stream Data Management)

Trinity 數據整合研究室
根據 Google 的調查,資料工程師約 45% 的工作時間用於資料前處理;而我們業界實作經驗,專案中整體資料工程(人力與時程等)往往付出七成的代價於資料前處理。廠商承包的個別專案通常遷就現實,廠商與企業 IT 只能 case by case 施作;但以企業角度,鑒於資料多元且量大、處理複雜度高、商業分析目標層出不窮與營運常態化,專責的資料分析部門就必須採用資料整合平台來實施。

早於上世紀 90 年代,ETL 資料整合平台即應需求而生,也逐漸普及到企業資料分析的應用場景。如大家所熟知,ETL(Extract、Transform 和 Load)資料處理模式為批次作業,可良好搭配傳統應用系統資料庫運作。

因應技術與需求的新趨勢 – 流數據即時作業管理
(Stream Data Management)

現今商業環境應用數據與 AI 的潮流中,能否高效分析數據已成為決定市場競爭力的關鍵。隨著對即時數據處理能力的迫切需求,傳統 ETL 已不再能夠滿足現今市場對資料處理速度和靈活性的要求,於是近年業界推出新一代的「Data Pipeline 資料管道」整合平台。

Data Pipeline 平台提供兩種資料處理類型:批次處理(Batch Processing)和串流處理(Stream Processing),分別對應傳統資料庫數據或非即時分析需求(例如定期報表等)與流數據或即時分析需求(例如監控等)。

不同於 ETL 的 Batch Processing,Stream Processing 能夠即時(或近乎即時)接收、處理和分析串流資料,在運作中「管道」的資料不落地。針對原生的 Stream 資料源如 MQ 管理器(Kafka 、ActiveMQ 和 RabbitMQ 等)、各類型 Web Service、網路論壇貼文等等,以前受限技術,硬套用 ETL 模式效率較差,也難以有效應對快速甚至即時分析的需求,現在採用 Stream Processing 即迎刃而解!

Trinity 5 – 新一代 Data Pipeline 平台

本公司 Trinity 產品已耕耘 ETL 市場超過15年,並不斷依市場需求(大數據應用分析、IT 作業排程集中管理、新個資法公佈落實、社群媒體輿情分析、縣市合併大規模地址校正、企業資料治理趨勢等)擴充產品線,近年穩居國內領導品牌,不但客戶涵蓋電信、金融、網通、製造與公部門等各產業,也逐漸於客戶端替換了外商產品。最近數年,我們一直密切注意上述業界 Stream Processing 的應用趨勢,並發現國內客戶逐漸有此需求,於是二年前投入研發「Trinity SDM (Trinity Stream Data Management) 流數據管理」產品。

不同於國外 Data Pipeline 平台產品多為 ETL 與 Stream 分別開發,其實底層沒有整合 (骨子裡仍為二套產品);Trinity研發團隊在開發 Trinity SDM 產品時,也一併將與原平台底層以及 Trinity ETL(既有 ETL 產品)介接納入項目中,從而讓 Trinity 同步成為真正新一代 Data Pipeline 平台。這是 Trinity 產品的一次全新大躍進,於今年初正式發表,名之為 Trinity 5,產品 logo 也同步更新。目前 Trinity 5 與 Trinity SDM 已陸續獲得客戶採用。

TrinitySDM 將憑借創新的即時處理能力、高度的本地化支持以及成本效益,為企業商業分析帶來本質性的躍升,助其快速響應市場變化,並在數據驅動的商業環境中保持競爭優勢。

Trinity SDM 功能與應用

Trinity SDM 系統專注於提升即時數據流處理的效能和靈活性,以因應現代商業分析生態中,對數據的即時捕捉、分析和處理能力所提出的更高需求。主要著重於下述關鍵方面:
  • 即時數據流插件:支援 Kafka、ActiveMQ、RabbitMQ 等 MQ 管理器與Web service,能夠無縫地與各種數據生產者接軌,實現數據的即時流入。
  • 數據流轉換與處理:提供高效能的數據流轉換器和處理器,針對即時數據進行快速處理和轉化,從而實現從原始數據到有價值信息的即時轉化。
  • 實時數據流監控與可視化:提供功能豐富的 StreamConsole 介面,用於實時監控數據流動和操作狀態。StreamConsole 將支援即時日誌查看、作業狀態監控和警告通知,使用者能夠實時觀察數據流動情況,並對數據處理過程進行有效管理。此外,透過 Web JFDesigner 前端界面,系統將提供直觀的數據流動與操作視覺化呈現,進一步增強用戶體驗和操作便利性。
  • 自動化數據管控與維護:整合先進的 Spring Boot 技術,實現數據流作業的自動化管理,包括自動啟動、實時監控與自動停止,從而最大限度地減少人工介入。
  • 日誌與性能監控:結合強大的 ELK 技術,提供系統實時監控系統日誌和性能指標,及時發現並解決潛在的系統問題。
  • 數據流完整監控:提供從數據生成到最終輸出的每一個階段的完整監控和追蹤,確保數據流的正確性和完整性,並支持即時數據分析和決策。
  • Apache Flink 套件整合:整合 Apache Flink 套件,藉由 Apache Flink 的強大數據處理和轉換能力,使得 Trinity SDM 特別適合處理大規模的實時數據流。此外,本功能未來可與 Apache Flink 的複雜事件處理(CEP)功能結合,可開發出進階的分析應用。
透過 Trinity 5 可充分為企業提供一個全面的資料整合與數據處理解決方案,包括 Batch Processing 的 Trinity ETL 與 Stream Processing 的Trinity SDM;如前所述,Trinity 5 真正整合二者。目前已有多家原 Trinity ETL 的客戶,評估其資料處理工作以stream模式更有效率後,輕鬆轉換到 Trinity SDM 的工作,並確認其運行更具績效。

Trinity SDM 不只因應企業即時數據流處理作業,其具有更多元的應用潛力;未來本公司也將視客戶與市場需求,搭配 Apache Flink 的 CEP 即時分析和複雜模式識別能力,衍生開發如詐騙示警等更多樣化即時分析應用系統。