海量的分析

惑客廖 發表於 2016-01-31

隨著電腦運算能力的提昇以及儲存設備的進步,抽樣調查已經成為過氣的方式。時下的資料分析(以資料庫而言),多半採用樣本數量就是整個母體的空間(書中有提到,所謂整個母體空間大小,是可變的,而不是特定要多大的儲存空間才算大數據。我在Amazon讀到本書簡體版,其中一篇導讀用他老婆的事情舉例,顯然這作者有誤解大數據。),這是在以前學資料庫的時候所無法想像的。當時的資料庫都是結構化的,所有在資料表內的每個項目,都必須先定義他的型態,不能更改,而在現今的NoSQL的資料結構中,已經打破這種藩籬。從這本書講述的內容得知,這種大資料的分析,多半是看個大概(跟當下電腦計算能力還是有關係)。但從這大概中,可以了解整個趨勢,而做出比以前更精準的決策。比方,某個地區的某群人,在某個時間點特別消費了某種東西(在書中舉的例子就是在颱風前,人們特別跑到超市買某種產品),書中有不少正反的例子。 而這些分析的結果,創造出非常高的價值,像目前的一些社群網站,能夠掌握特定一群人的行為,也因此讓資料的擁有者得以從這些分析出來的資料得到利益。其中,又另外有兩類型的人扮演重要的角色,一是資料專家,另一是分析專家。 當然,這樣能夠處理海量能力的方法誕生,衍生出這個時代的黑暗面。正如不久前新聞報導的斯諾登洩密事件,就點出這種資料遭到政府機構濫用的可能性。之前新聞報導也報導過類似銀行、信用卡客戶資料遭到販售的情況。在所有的資料被當作母體的今天,要從大海撈針,看來已經不是很難的事情了。 比方說,當某個範圍的活動狀況被鎖定,在這個範圍裡面的所有個體,即為分析、調查用的母體。分析這個母體,就能夠鎖定某一小撮的人,然後進而找出標的。接著從這些標的中,調查出某幾個體的身份,就能找出要找的人事物。未來,隱私也許還是存在,前提是你我還沒被盯上的時候。 至於要多久才不會被找到?我看很難,我十多年前的一些文書資料,還是能夠Google得到...另外,你我的搜尋紀錄、網絡活動、手機上網發送訊息時的位置,會存在於這些App廠商的資料庫中好多年。

請先登入會員,才可回應。

登入 / 註冊

會員中心