|
|

Gen AI 如何提昇金融業的數據治理

鍾德霖 博士 David Chung Ph.D.
副合夥人 Associate Partner
星普思管理諮詢有限公司 Synpulse
長期以來數據治理對金融機構來說重要性不言可喻,但往往投入數據治理資源的優先序相對並不高。然而近幾年隨著資料科學、AI乃至於生成式AI(Gen AI)的興起,數據治理的重要性不斷因為技術的演進而進一步「被迫地」突顯出來。在本系列文章將以數據治理 Data Governance 為核心進行不同面向的介紹與探討。

本篇文章將探討 Gen AI 如何提昇金融業的數據治理。
依據我們過去豐富的數據治理專案經驗,在八大數據治理的支柱中最普遍的問題不外乎數據品質、數據血緣與數據字典這三個彼此之間也有高度相關性的議題。如今Gen AI不僅能提升數據的質量和一致性,還能通過自動化的數據質量檢查和清理流程,確保數據的準確性和可靠性;它還提高了數據管理框架內的透明度和問責度 (Accountability),使金融機構能夠更有效地追踪和管理數據來源,從而支持更加精確的決策和業務增長。
 
以下是 Gen AI 可以提昇數據治理的三個基本面向:
  1. 元數據(或稱詮釋資料)的建立與補強
    依據我們的經驗,元數據 (Metadata) 的缺乏與不夠精確幾乎是造成資料品質不足最普遍的原因,而填寫過程繁瑣常需大量的人工且無一致性的填寫標準是最大的障礙;Gen AI恰恰可提供協助。

    舉例而言,本土銀行在系統建置的過程中均有撰寫「商業分析文件 (BA 文件)」以及「系統分析文件(SA 文件)」;而這兩份文件多半可提供相當程度的元數據的資訊基礎。透過 Gen AI自動讀取該些文件而快速生成元數據,已可提高使用者對於資料的可理解性而減少誤用或錯用。 而針對過去舊有資料的元數據補遺而言,Gen AI可讀取既有大量的文件來填補過去系統建置過程中所缺乏的元數據也是可行的做法。
  1. 數據品質的監測、比對與清理
    於系統運作時及時檢測數據中的異常、錯誤和不一致性是在日常運作中提昇數據治理的務實做法;我們可以透過Gen AI掃描大量數據集識別出缺失值、格式錯誤和數據異常,並及時告警並進行後續的處理。

    此外依據我們的經驗,常見存在於不同的資料表單但具有相同的資料名稱的數據彼此之間並不一致。發生此情況的原因存在著多數的可能性,透過 Gen AI 並給予適當的指令可協助數據治理團隊成員辨識原因。
  1. 建立數據的知識圖譜
    知識圖譜的範圍可能很廣泛,但光就數據血緣 (Lineage) 的不足就是常見的痛點。利用Gen AI透過組織內各種可能包含數據血緣的文件、檔案、系統設定檔甚至是程式碼自動提取數據與數據之間的關聯構建出知識圖譜的基礎,亦為 Gen AI 可提昇數據治理的場景之一。