照片是以前在Exeter念書時拍的
大數據

不得不說這本書是最近看到最讓我有想法的書了!!!

過去來講因為蒐集資料的成本很高,所以統計學有很大一部分在嘗試解決抽樣的問題,不同的抽樣方式會造成不同的結果(誤差多少啦 信度多少 效度多少...離統計學太遠了,現在想掰都掰不出來了)
這本書就是告訴你,可以把統計學(關於抽樣那部分)給扔了,來迎接大數據的時代吧,現代人掌握的數據資料之龐大,樣本=母體
面對大數據的時代,要如何更新思維,掌握重點,就是本書想要傳達的訊息

以下是書的重點整理
《趨勢一》樣本=母體
2009年H1N1盛行的時候,美國要求疾管局需要每週通報新型流感的病例,但早在H1N1被人注意到前,Google的工程師就發表了一篇文章講述他們是如何利用人們搜尋的關鍵字,和流感相關的關鍵字去比對,從而去預測今年的流感是否會爆發、甚至可以預測會在哪些區域爆發。因為Google工程師用的可不是各區域幾筆的抽樣,他們掌握的可是幾千萬筆(或是更多??)的搜尋紀錄,所以這可說是樣本=母體

過去蒐集資料的方式不但曠日廢時,而且還需要花費極大的金錢、人力。但現在因為資訊多以數位的方式儲存,甚至很多資訊是儲存在網路上的,全面資訊的蒐集是可能實現的,方看做研究的人是如何把資訊給"兜"出來。

《趨勢二》因果關係out,相關性In
亞馬遜書店運用客戶的購買紀錄,買某本書籍時會同時買什麼產品,像這樣的購買紀錄累積之下,作為後續推薦客戶的依據。
不再去問"為什麼"客戶買了這個以後,還會買別的什麼,而是直接去使用的相關性。

《趨勢三》一切資料化
將資訊轉為可分析的資料,從過去航海家莫銳整理船長日誌,將文字整理成圖,幫助航海者找到最適宜的路徑,到現在的臉書、Google,嘗試將過去僅能用文字表達的資訊,改成是可分析的資料。將資訊資料化,轉變為可分析、方能使用之。

資訊好在於可重複利用,且無排他性。例如1990晚期為了打擊垃圾訊息機器人,Louis von Ahn發明了用一些機器人難以閱讀的文字、影像,但是人可以閱讀辨識出來的作為身分辨識(想想現在我們要留言前要輸入的那個玩意兒),這個發明成功打擊了垃圾訊息機器人,但Louis von Ahn意識到這可是在浪費大家的時間呢,他就想到了,ㄟ~~不然我就拿google現在進行的圖書掃描計畫-文本數位化,電腦辨認不出來的字拿去給大家去辨識好了。

這有沒有超聰明的??看這本書讓我覺得最大的收穫是吸收到很多創新的點子,而因為這些的例子十分貼近生活,所以更能讓人產生很多想法。


我覺得書很棒的一點不會一面倒的說巨量資料有多棒,同時也在書的最後提出使用巨量資料還是要小心,也許可以應用巨量資料預測觀察到一些趨勢、潮流,但是必須還是要相信人的"能動性"
例如前面舉的google工程師預測H1N1爆發,依照這樣的數據去加強監控當地的疫情是好的,但若是直接去隔離那些區域的居民,那就太過分了。

整體而言,這本書相當的淺顯易懂,像我不是相關IT背景的人看了也還是覺得十分有收穫喔,給個讚

 最後附上書資訊如下:


 

, ,

Posted by kib80426 at 痞客邦 PIXNET 留言(0) 引用(0) 人氣()