文本資料處理

從網路爬文至關鍵字識別,再到詞語分類、語意分析,TrinityUDM 可以幫助企業收集散佈在社交媒體、論壇、部落格及公開資料庫的資訊,運用其在地化語言優勢,提供外商解決方案無法企及的文本資料分析處理成效。

最佳入門分析工具

本模組是基於 TrinityJCS(作業排程管理模組) 與 TrinityETL(資料整合模組),可整合結構化資料與非結構化資料處理的強大模組。

多元的文本資料擷取

網站內容擷取

  • 可順著起始網頁中的 URL 連結,逐頁逐層進入,擷取完整內容。
  • 可透過代理伺服器(Proxy)進行擷取。
  • 可指定連線數及代理伺服器(Proxy)數量。
  • 可過濾 URL 參數、設定連線等待時間、連線失敗重新連線等。
  • 可批次爬取多個起始網頁。
  • 可將網頁資料串流下載,以 blob、bytea 型態儲存。
  • 讀取檔案下載連結,添加 https 憑證並判別檔名格式、判別重複、判別拒絕目標等,依檔案原始格式下載至指定路徑。

多元擷取技術

  • JSOUP 爬蟲技術,支援 GET、POST 網路連線協定。
  • XML/HTML 運用 Xpath 定位取值。
  • GoogleMaps 、GoogleSearch 結果擷取。
  • 目錄檔案擷取,提取其中的純文字內容。
  • 抓取 RSS Feed 的內容,並轉換成以 RSS Entry 為單位的資料輸出。
  • 可解析 JSONArray 及 JSONObject
  • 地址字串正規化分析,包括全半形轉換、行政區升格校正、中文數字與阿拉伯數字對比、郵政信箱判斷、郵遞區號比對等。

Open Data

  • 讀取政府開放資料平台的來源列表,擷取檔名、檔案下載位置、類型、編碼、更新時間等資訊。
  • 提供關鍵字搜尋和 ID 匹配搜尋。

社群平台

  • Facebook 粉絲團爬文,擷取文章(post)、留言(comment)、留言回覆(reply)、按讚(like)、表情符號統計等資料。
  • twitter 擷取關鍵字搜尋結果,及指定使用者 ID 貼文擷取。

豐富的文本資料分析

斷字切詞

中文文章斷詞,輸出帶詞性的JSONArray,或以分隔符號斷詞後的字串。

擷取摘要

將文字型態欄位濃縮成摘要。

詞頻統計

使用CRF分詞模型,進行詞頻統計。

尋找新詞

利用演算法尋萃取關鍵字並尋找新詞。

資料匹配度

依據給定的詞庫,計算分數判斷文本資料與詞庫的相似度,判定匹配程度。

判別語系

解析混合語系文章並判別其語系,內建 53 種語言的判別支援。

排除文數字

提供 28 種語言的排除文數字支援。

情緒分數

依據給定的詞庫,將中文文章計算正負情緒分數。

資料分類

依據給定的詞庫,計算分將資料進行分析並分類。
比對給定的詞庫後分類資料。

資料向量與維度

可計算資料的 LDA 向量。
可將資料轉換為維度詞。

JSON 資料

可巢狀解析、合併、更新、刪除內容。
可檢查 JSON 格式合法性。
可指定解析規則解析字串,並以 JSON 格式輸出。

更多模組功能

TrinityJCS

作業排程管理

TrinityETL

資料整合

TrinityBDM

大數據平台整合

TrinityUDM

文本資料處理

Metaman

元數據管理

Data Safety

資料去識別化

TrinityAN

地址正規化

客戶案例

了解 Trinity 如何廣泛運用

立即試用

申請免費試用,了解更多可能性!