文本数据处理

从网络爬文至关键字识别,再到词语分类、语意分析,TrinityUDM 可以帮助企业收集散布在社交媒体、论坛、部落格及公开数据库的数据,运用其在地化语言优势,提供外商解决方案无法企及的文本数据分析处理成效。

最佳入门分析工具

本模块是基于 TrinityJCS(作业排程管理模块) 与 TrinityETL(数据整合模块),可整合结构化数据与非结构化数据处理的强大模块。

多元的文本数据撷取

网站内容撷取

  • 可顺着起始网页中的 URL 连结,逐页逐层进入,撷取完整内容。
  • 可透过代理伺服器(Proxy)进行撷取。
  • 可指定连线数及代理伺服器(Proxy)数量。
  • 可过滤 URL 参数、设定连线等待时间、连线失败重新连线等。
  • 可批次爬取多个起始网页。
  • 可将网页数据串流下载,以 blob、bytea 型态存储。
  • 读取文件下载连结,添加 https 凭证并判别档名格式、判别重复、判别拒绝目标等,依文件原始格式下载至指定路径。

多元撷取技术

  • JSOUP 爬虫技术,支持 GET、POST 网络连线协定。
  • XML/HTML 运用 Xpath 定位取值。
  • GoogleMaps 、GoogleSearch 结果撷取。
  • 目录文件撷取,提取其中的纯文字内容。
  • 抓取 RSS Feed 的内容,并转换成以 RSS Entry 为单位的数据输出。
  • 可解析 JSONArray 及 JSONObject
  • 地址字串正规化分析,包括全半形转换、行政区升格校正、中文数字与阿拉伯数字对比、邮政信箱判断、邮递区号比对等。

Open Data

  • 读取政府开放数据平台的来源列表,撷取档名、文件下载位置、类型、编码、更新时间等信息。
  • 提供关键字搜寻和 ID 匹配搜寻。

社群平台

  • Facebook 粉丝团爬文,撷取文章(post)、留言(comment)、留言回覆(reply)、按赞(like)、表情符号统计等数据。
  • twitter 撷取关键字搜寻结果,及指定使用者 ID 贴文撷取。

丰富的文本数据分析

断字切词

中文文章断词,输出带词性的JSONArray,或以分隔符号断词后的字串。

擷取摘要

将文字型态字段浓缩成摘要。

词频统计

将文字型态字段浓缩成摘要。

寻找新词

利用演算法寻萃取关键字并寻找新词。

数据匹配度

依据给定的词库,计算分数判断文本数据与词库的相似度,判定匹配程度。

判别语系

解析混合语系文章并判别其语系,内建 53 种语言的判别支持。

排除文数字

提供 28 种语言的排除文数字支持。

情绪分数

依据给定的词库,将中文文章计算正负情绪分数。

数据分类

依据给定的词库,计算分将数据进行分析并分类。
比对给定的词库后分类数据。

数据向量与维度

可计算数据的 LDA 向量。
可将数据转换为维度词。

JSON 数据

可巢状解析、合并、更新、删除内容。
可检查 JSON 格式合法性。
可指定解析规则解析字串,并以 JSON 格式输出。


更多模块功能

TrinityJCS

作业排程管理

TrinityETL

数据整合

TrinityBDM

大数据平台整合

TrinityUDM

文本数据处理

Metaman

元数据管理

Data Safety

数据脱敏

TrinityAN

地址正规化

客户案例

了解 Trinity 如何广泛运用

立即试用

申请免费试用,了解更多可能性!