NetPro 耐特普羅資訊:技術應用 / 資料探勘 (Data Mining) 簡介
回首頁網站地圖聯絡我們简体版
資料探勘 (Data Mining) 簡介


Data Mining 是 Data Warehouse 應用方式中最重要的一種。基本上Data Mining 是用來將資料中隱藏的資訊挖掘出來,其實是Knowledge Discovery 的一部份,使用了許多統計分析與 Modeling 的方法,到資料中尋找有用的特徵(Patterns)以及關連性(Relationships)。 Knowledge Discovery 的過程對 Data Mining 的應用成功與否有重要的影響,只有它才能確保 Data Mining 能獲得有意義的結果。

 
Data Mining的功能
 
一般而言,Data Mining包含下列五項功能:分類(classification)、推估(estimation)、預測(prediction)、關聯分組(affinity grouping)、同質分組(clustering),簡述如下:
 
分類
按照分析對象的屬性分門別類加以定義,建立類組(class)。例如,將信用申請者的風險屬性,區分為高度風險申請者,中度風險申請者及低度風險申請者。使用的技巧有決策樹(decision tree),記憶基礎推理(memory - based reasoning)等。
 
推理
根據既有連續性數值之相關屬性資料,以獲致某一屬性未知之值。例如按照信用申請者之教育程度、行為別來推估其信用卡消費量。使用的技巧包括統計方法上之相關分析、迴歸分析及類神經網路方法。
 
預測
根據對象屬性之過去觀察值來推估該屬性未來之值。例如由顧客過去之刷卡消費量預測其未來之刷卡消費量。使用的技巧包括迴歸分析、時間數列分析及類神經網路方法。
 
關聯分組
從所有物件決定那些相關物件應該放在一起。例如超市中相關之盥洗用品(牙刷、牙膏、牙線),放在同一間貨架上。在客戶行銷系統上,此種功能係用來確認交叉銷售(cross selling)的機會以設計出吸引人的產品群組。
 
同質分組
將異質母體中區隔為較具同質性之群組(clusters)。同質分組相當於行銷術語中的區隔化(segmentation),但是,假定事先未對於區隔加以定義,而資料中自然產生區隔。使用的技巧包括k-means法及agglomeration法。
 
Data Mining的方法
 
Data Miming是利用資料來建立一些模擬真實世界的模式 (Model),以之描述其特徵 (Patterns) 以及關係 (Relations)。這些模式有兩種用處,其一,瞭解資料的特徵與關係可以提供做決策所需要的資訊,譬如 Association Model 可以幫助超級市場或百貨店規畫如何擺設貨品;其二,資料的特徵可以幫助預測,例如可以從一份郵寄名單預測出哪些客戶最可能對我們的推銷做回應,所以可只對特定的對象做郵購推銷,而不必浪費許多印刷費郵寄費而只得到很少的回應,這就是精準行銷。
 
Data Mining 可以建立六種模式:
•    Classification
•    Regression
•    Time Series
•    Clustering
•    Association
•    Sequence

Classification 及 Regression 主要是用來做預測,而 Association 與 Sequence 主要是用來描述行為(例如消費行為),另外Clustering 則是二者都可以用的上。
Classification 是根據一些變數的數值做計算,再依照結果作分類。(計算的結果最後會被分類為幾個少數的離散數值,例如將一組資料分為 "可能會回應" 或是 "可能不會回應" 兩類)。Classification 常常被用來處理如前面說到的郵寄對象篩選的問題。我們會用一些已經分類的資料來研究 它們的特徵,然後再根據這些特徵對其他未經分類或是新的資料做預測。這些我們用來尋找特徵的已分類資料可能是來自我們的現有的歷史性資料,或是將一個完整 資料庫做部份取樣,再經由實際的運作來測試;譬如利用一個大的郵寄對象資料庫的部份取樣來建立一個 Classification Model,以後再利用這個 Model 來對資料庫的其他資料或是新的資料作預測。 Regression 是使用一系列的現有數值來預測一個連續數值的可能值。
Time-Series Forcasting 與 Regression 很像,只是它是用現有的數值來預測未來的數值。Time-Series Forcasting 的不同點在於它所分析的數值都與時間有關。Time-Series Forcasting 的工具可以處理有關時間的一些特性,譬如時間的階層性(例如每個禮拜五個或六個工作天)、季節性、節日、以及其他的一些特別因素如過去與未來的關連性有多少。
Clustering 是將資料分為幾組,其目的是要將組與組之間的差異找出來,同時也要將一個組之中的成員的相似性找出來。Clustering 與 Classification 不同的是,你不曉得它會以何種方式或根據什麼來分類。所以你必須要有一個分析師來解讀這些分類的意義。
Association 是要找出在某一事件或是資料中會同時出現的東西。Association 主要是要找出下面這樣的資訊:如果 Item A 是某一事件的一部份,則 Item B 也出現在該事件中的機率有 X %。(例如:如果一個顧客買了低脂乳酪以及低脂優酪乳,那麼這個顧客同時也買低脂牛奶的機率是 85%。)
Sequence Discovery 與 Association 關係很密切,所不同的是 Sequence Discovery 中相關的 Item 是以時間區分開來(例如:如果做了 X 手術,則 Y 病菌在手術後感染的機率是 45%。又例如:如果 A 股票在某一天上漲12%,而且當天股市加權指數下降,則 B 股票在兩天之內上漲的機率是 68%)。

 

Go to > Data Mining的技術與應用

Go to > Data Mining的導入與建置