我們要怎樣在數據的海洋中保持清醒?
時間:2018-07-17 14:06 閱讀:1176 整理:市場調研公司
我們每天都要接受大量的數據,這些數據不是都是有用的,那我們應該怎么來正確的解讀、分析、處理這些數據呢?
在《數據的真相》一書中MIT數據學專家講述了如何破譯每天接觸到的數據,將復雜的問題變得更簡單和直觀。我們每天都在刷頭條、瀏覽彈窗,每天都會接觸海量的數據信息,這些信息背后隱藏著什么真相?如何識別那些一本正經的胡說八道?普通人一天大約要接收30G的數據,但大部分人不知道如何正確地解讀這些數據。MIT數據學專家在《數據的真相》中講述了如何破譯每天接觸到的數據,將復雜的問題變得更簡單和直觀。
《數據的真相》涉及商業、零售、廣告、育兒等諸多領域的真實案例,以及時常為人們所誤解的數據概念。在本書中,你不僅能夠找到如何在信息龐雜的世界中識別數據謊言、挖掘有用信息的方法,而且還能找到憑借該答案迅速做出明智決定的智慧。
如果你擁有所有以往數據,也就是我們所謂的數據總體,那么你就有了一個良好的開端。例如,不管以什么方式,若我們能夠觀測到曾經發生在日本的每一次地震及海嘯,我們就掌握了所有這些事件的數據。即使那時我們常常禁不住思考未來還會發生什么別的事情。
但如果我們沒有搜集到全部數據,就不得不依賴某一個樣本。而在抽樣的過程中,我們也不是總能知道樣本是否代表了數據總體的真實情況。所以你得出的結論也不確定,也就是抽樣誤差—我們在第五章討論過。這是福島大災難背后的因素之一,鑒于大地震及海嘯發生的頻率相對較低,其樣本容量(幾十年)太小,不具備代表性。
樣本的不確定性越大,預測的不確定性就越大。掌握的信息越詳盡,預測結果越準確,在統計學中,我們將預測的基礎稱為“模型”。模型展示了所有掌握的信息—你用來預測未來的因素,你所依賴的基礎樣本數據,以及你通過數學方法確定的各因素之間的關系。換句話說,該模型體現了你所認為的各因素之間的關系。畢竟,如果你解釋不了已經看到的東西,就很難(幾乎不可能)解釋在未來將要看到的東西。
以往的數據也會受到目前我們討論過的許多因素的影響—篩選數據、遺漏變量、離群值、顯著性差異等。以上任何因素在你的以往數據中出現都會導致影響預測的問題,因為未來通常立足于以往的數據。
任何評估都存在不確定性,然而這并不是有些人所喜聞樂見的—他們只想要數字。
正如布朗所說,“大多數經濟學家明白,我們真正在做的是‘規劃’而非‘預測’”。換句話說,如果生育率、死亡率或者勞動參與率以特殊的方式演變的話,我們可以非常自在地將社會保障系統內的資金運轉方式轉化為模型。但若要明確地說明陳述生育率、死亡率或者勞動參與率將以哪種特定的方式發展,我們就沒那么自在了。
不過除了在數據統計方面受過訓練(或者讀過這本書)的人,這類的細微差別可能對他們來說無足輕重。布朗指出:“結果是,我們常常見到這樣的情形,當政策沒有完全達到預期效果,哪怕結果仍處在初步估算出來的置信區間時,人們就已經表達出意外、失望乃至憤怒之情了。”
數據霸權崛起、無用階層龐大——這是《今日簡史》預言中2050年的世界
算法正在大行其道,我們到底是受益者還是受害者?

關注公眾號
獲取更多行業資訊
本站文章內容以及所涉數據、圖片等資料來源于網絡,轉載目的在于傳遞更多信息。版權歸作者所有,文章僅代表作者觀點,不代表華夏經緯立場。 如涉及侵權,請聯系管理員刪除。在法律許可的范圍內,華夏經緯(廣州)數據科技股份有限公司享有最終解釋權。
- 上一篇:小企業如何自己動手做市場調研?
- 下一篇:三種消費者購買動機的調研方法