惑客廖在《大數據》寫了一則完讀書評 - 海量的分析

海量的分析

惑客廖發表於 2016-01-31

隨著電腦運算能力的提昇以及儲存設備的進步，抽樣調查已經成為過氣的方式。時下的資料分析（以資料庫而言），多半採用樣本數量就是整個母體的空間（書中有提到，所謂整個母體空間大小，是可變的，而不是特定要多大的儲存空間才算大數據。我在Amazon讀到本書簡體版，其中一篇導讀用他老婆的事情舉例，顯然這作者有誤解大數據。），這是在以前學資料庫的時候所無法想像的。當時的資料庫都是結構化的，所有在資料表內的每個項目，都必須先定義他的型態，不能更改，而在現今的NoSQL的資料結構中，已經打破這種藩籬。從這本書講述的內容得知，這種大資料的分析，多半是看個大概（跟當下電腦計算能力還是有關係）。但從這大概中，可以了解整個趨勢，而做出比以前更精準的決策。比方，某個地區的某群人，在某個時間點特別消費了某種東西（在書中舉的例子就是在颱風前，人們特別跑到超市買某種產品），書中有不少正反的例子。而這些分析的結果，創造出非常高的價值，像目前的一些社群網站，能夠掌握特定一群人的行為，也因此讓資料的擁有者得以從這些分析出來的資料得到利益。其中，又另外有兩類型的人扮演重要的角色，一是資料專家，另一是分析專家。當然，這樣能夠處理海量能力的方法誕生，衍生出這個時代的黑暗面。正如不久前新聞報導的斯諾登洩密事件，就點出這種資料遭到政府機構濫用的可能性。之前新聞報導也報導過類似銀行、信用卡客戶資料遭到販售的情況。在所有的資料被當作母體的今天，要從大海撈針，看來已經不是很難的事情了。比方說，當某個範圍的活動狀況被鎖定，在這個範圍裡面的所有個體，即為分析、調查用的母體。分析這個母體，就能夠鎖定某一小撮的人，然後進而找出標的。接著從這些標的中，調查出某幾個體的身份，就能找出要找的人事物。未來，隱私也許還是存在，前提是你我還沒被盯上的時候。至於要多久才不會被找到？我看很難，我十多年前的一些文書資料，還是能夠Google得到...另外，你我的搜尋紀錄、網絡活動、手機上網發送訊息時的位置，會存在於這些App廠商的資料庫中好多年。

讚回應

請先登入會員，才可回應。

登入 / 註冊

海量的分析

個人

瀏覽

網站導覽

會員中心

Readmoo 祝您猴年行大運！