最佳入門分析工具
Trinity UDM(文本資料處理模組)是基於Trinity JCS(作業排程管理模組) 與 Trinity ETL(資料整合模組) 的強大結合,支援企業無縫整合結構化與非結構化資料,從傳統資料庫到社群媒體,都能輕鬆納入分析範圍。 高度彈性的模組架構可支援企業客製化資料處理流程,滿足企業多元資料擷取與分析的目標。

生產力優勢
洞悉網路世界
網站內容擷取
- 支援從起始網頁 URL 連結開始,循序漸進深入各連結頁面,完整擷取網站內容。
- 可透過代理伺服器(Proxy)進行擷取。
- 允許使用者自訂連線數、代理伺服器(Proxy)數量、連線等待時間等參數,以符合不同爬取需求。
- 可過濾 URL 參數,並具備連線失敗自動重試機制。
- 支援同時爬取多個起始網頁。
- 支援將網頁資料以 blob 或 bytea 等格式儲存。
- 可讀取檔案下載連結,添加 https 憑證並判別檔名格式、判別重複、判別拒絕目標等,依檔案原始格式下載至指定路徑。
多元擷取技術
- JSOUP 爬蟲技術,支援 GET、POST 網路連線協定。
- XML/HTML 運用 Xpath 定位取值。
- GoogleMaps 、GoogleSearch 結果擷取。
- 目錄檔案擷取,提取其中的純文字內容。
- 抓取 RSS Feed 的內容,並轉換成以 RSS Entry 為單位的資料輸出。
- 可解析 JSONArray 及 JSONObject
- 地址字串正規化分析,包括全半形轉換、行政區升格校正、中文數字與阿拉伯數字對比、郵政信箱判斷、郵遞區號比對等。
Open Data
- 支援從政府開放資料平台擷取豐富的元數據,包含檔名、檔案下載連結、檔案類型、編碼格式及檔案更新時間等資訊。
- 支援關鍵字搜尋和 ID 匹配搜尋。
社群平台
- Facebook 粉絲團爬文,擷取文章(post)、留言(comment)、留言回覆(reply)、按讚(like)、表情符號統計等資料。
- twitter 擷取關鍵字搜尋結果,及指定使用者 ID 貼文擷取。
核心功能
多元文本處理
斷字切詞
中文文章斷詞,輸出帶詞性的JSONArray,或以分隔符號斷詞後的字串。
擷取摘要
將文字型態欄位濃縮成摘要。
詞頻統計
使用CRF分詞模型,進行詞頻統計。
尋找新詞
利用演算法尋萃取關鍵字並尋找新詞。
資料匹配度
依據給定的詞庫,計算分數判斷文本資料與詞庫的相似度,判定匹配程度。
判別語系
解析混合語系文章並判別其語系,內建 53 種語言的判別支援。
排除文數字
提供 28 種語言的排除文數字支援。
情緒分數
依據給定的詞庫,將中文文章計算正負情緒分數。
資料分類
利用演算法尋萃取關鍵字並尋找新詞。
資料向量
計算資料的 LDA 向量。
資料維度
將資料轉換為維度詞。
JSON 資料
支援 JSON 巢狀解析、合併、更新、刪除等多種操作,並提供彈性的自定義解析規則。