回首頁網站地圖聯絡我們简体版
巨量資料 (Big Data) 簡介

繼雲端運算Cloud Computing之後,ICT術語最夯、且被各產業與媒體談到浮濫而大眾還是很模糊者,就是巨量資料Big Data了。究竟何謂Big Data?又為何爆紅而大家都想沾點邊?其實與Cloud Computing相同,Big Data也是網路業者已經在做,而被市場快炒起來的議題。它可橫跨眾多產業應用且與大眾相關 (不像ICT另一個浮濫的術語「虛擬化Virtualization」,只限於IT Infra.),從而很有發展性而「引人遐思」;因此產業重視、意見領袖呼籲加以媒體大量報導,形成一股預期可持續數年的熱潮。

Big Data的意涵

那麼何謂Big Data?它並非定義嚴謹的專業名詞,雖然眾說紛紜,但業界共識的3V1C是很好的描述,如下圖。


  • 資料量(Volume):動輒以Terabyte計,甚至要處理Petabyte等級的資料量;
  • 處理速度(Velocity):從批次、即時到串流,線上廣告要在40毫秒內決定回應內容,而授信系統必須在1毫秒裡面完成客戶信評的計算;
  • 內容多樣性(Variety):資料的樣式包括結構化、非結構化與半結構化,以及三種型式的組合;
  • 複雜性(Complexity):面對前述3V的綜合需求,Gartner說結構複雜,筆者則詮釋為「構成複雜的挑戰」。
上述3V1C展現了Big Data的特性,也突顯了它提出的挑戰,這就是Big Data被提出的原因—傳統的IT Infra.與RDBMS資料庫技術無法對其有效處理。常有企業說IT資料只有數個TB,實在太小,應該稱不上「Big」Data;其實只要其符合3V的一至二個特性,仍可歸屬Big Data,重點是其為既有傳統IT技術難以處理者。

因此業界揭櫫的Big Data實際上是下述面向的統稱:
  • 資料面:包含以前即存在的衛星遙測、石油探勘、飛機引擎log、生產線機台log、電話交換機call log與錄音、DVR影像、網路封包等machine data,與新興網路上的網頁、論壇、Social Media、IM等human data;這些資料不同於傳統資料庫的結構化資料,包括數據、文字、圖像、語音、影像等,需要以新的技術來處理。
  • 技術面:除了Infra.的分散式處理系統(主要是Hadoop體系)外,具備NoSQL、Column-oriented、In-memory、Shared Nothing等技術的新一代資料庫產品相繼面世,尚有CEP(Complex Event Processing)的即時處理技術;它們都是因應須快速處理巨量資料而誕生,由於Big Data技術仍持續演進,未來還會不斷推陳出新。
  • 應用面:主要是針對資料分析,尤其是個人化的精準預測分析。目前最成熟的當屬網站營運相關應用,包括網站與網頁優化、電商購物推薦、網頁廣告投放等;這並不奇怪,Cloud Computing/Social Media/Big Data本就是Internet業者主導發展出來的。當然,其他的企業應用也正百花齊放中。