重讀《大數據時代》:關于大數據的再認識
時間:2018-09-26 14:39 閱讀:1130 整理:市場調研公司
《大數據時代:生活、工作與思維的大變革》是被譽為“大數據時代的預言家”的牛津大學教授維克托.邁克-舍恩伯格所寫的一本經典大數據書籍,2013年筆者首讀此書,豁然開朗,其中很多的觀點振聾發聵,如果你還沒讀過此書,建議你可以讀一下。
一晃三年過去,筆者對于大數據也有了一些新的認識, 無論是所謂的大數據帶來了思維方式上的變革,還是技術上的革命,或者商業模式或管理模式的改變,但從本質的角度講,大數據還沒有達到所謂的高度,即大數據時代,其與信息時代的計算機、集成電路、光纖通信,互聯網相比,目前還無法媲美,衡量大數據成功的標志,是是否推動了國家的人均信息消費水平達到一個新的高度(此句摘自李國杰院士)。
對于《大數據時代》此書提的很多觀點應該用辯證的方法來看待,以下筆者就一些認識上的一些爭議給出自己的理解,注意,后面有彩蛋,一定要看完哦:
“不是隨機樣本,而是全體數據”,實際大多并不是這樣
作者表達了一個觀點,“當數據處理技術已經發生了翻天覆地的變化時,在大數據時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的數據,“樣本=總體””。
這種說法表明了一種新的認知世界的方式,是一種新的趨勢,努力達到全量的確可以讓我們抓到了更多的細節,讓我們擺脫傳統統計分析學的束縛,就好比以前預測美國總統大選,采用的是民意抽樣統計,而如今已經可以對于社區用戶所有言論的判斷來更精準的預測。
但是,現實世界很殘酷,大多數領域你其實無法拿到全量的數據,或者,如果你要拿到全量的數據,代價極其巨大,因此,大多數時候,我們用的大數據仍是局部的小數據,沒有所謂“樣本=總體”的條件,傳統的以抽樣來理解這個世界的方式仍然有效,機器學習與統計學作為一種認知世界的方法也將持續有效,前期的AlphaGo與李世石的人機大戰。AlphaGo只能用采樣的方式獲得有限的棋局進行深度學習就是例證,因為你不可能拿到全部的樣本或者甚至是足夠的樣本,因為這個數量比全宇宙的原子還多。
當然,對于國際象棋和中國象棋上,全量的數據已經使得傳統勝負的玄妙缺失了意義,因此,可以這么大膽推測,當某個領域具備“樣本=總體”的時候,就是該領域被大數據替換的時刻。
“不是精確性,而是混雜性”,沒能力但不能否定精確性的價值
作者表達了這樣一個觀點,執迷于精確性是信息時代和模擬時代的產物。只有5%的數據是結構化且能適用于傳統數據庫的。如果不接受混亂,剩下95%的非結構化數據都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶,大數據的簡單算法比小數據的復雜算法更有效。
傳統數據處理追求“精確度”,這種思維方式適用于掌握“小數據量”的情況,因為需要分析的數據很少,所以我們必須盡可能精準地量化我們的記錄。大數據紛繁多樣,優劣摻雜,分布廣泛。擁有了大數據, 我們不再需要對一個現象刨根究底,只要掌握大體的發展方向即可,適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。
這段話說得沒錯,但我認為大數據的復雜算法對于認識這個世界更為重要,對于精準性的把握始終是我們的目標,只是因為我們現在的算法太弱了,無法駕馭大數據,才提簡單的算法。
比如,在工業界一直有個很流行的觀點:在大數據條件下,簡單的機器學習模型會比復雜模型更加有效。例如,在很多的大數據應用中,最簡單的線性模型得到大量使用。而最近深度學習的驚人進展,促使我們也許到了要重新思考這個觀點的時候。簡而言之,在大數據情況下,也許只有比較復雜的模型,或者說表達能力強的模型,才能充分發掘海量數據中蘊藏的豐富信息。運用更強大的深度模型,也許我們能從大數據中發掘出更多有價值的信息和知識。
為了理解為什么大數據需要深度模型,先舉一個例子。語音識別已經是一個大數據的機器學習問題,在其聲學建模部分,通常面臨的是十億到千億級別的訓練樣本。在Google的一個語音識別實驗中,發現訓練后的DNN對訓練樣本和測試樣本的預測誤差基本相當。這是非常違反常識的,因為通常模型在訓練樣本上的預測誤差會顯著小于測試樣本。因此,只有一個解釋,就是由于大數據里含有豐富的信息維度,即便是DNN這樣的高容量復雜模型也是處于欠擬合的狀態,更不必說傳統的GMM聲學模型了。所以從這個例子中我們看出,大數據需要復雜深度學習,毫無疑問AlphGo也必定是欠擬合的。
“不是因果關系,而是相關關系”,追求真理是我們永恒的目標
作者提出了這樣一個觀點,尋找因果關系是人類長久以來的習慣。即使確定因果關系很困難而且用途不大,人類還是習慣性地尋找緣由。在大數據時代,我們無須再緊盯事物之間的因果關系,不再把分析建立在早已設立的假設的基礎之上。而應該尋找事物之間的相關關系,讓大數據告訴我們“是什么”而不是“為什么”。
一方面,應該承認基于大數據的相關關系是我們認識世界和改造世界的新的方式,從應用科學的角度講,降低對于因果關系的追求可以讓大數據創造更大的價值。
另一方面,當前階段由于我們對于世界的認知太少,人類在有限的時間內不可能找到“終極真理”,大量的規律通過大數據暴露出了蛛絲馬跡,即所謂的相關關系,但其本質上仍是因果關系的體現,因此兩者并不沖突。一個解決當前問題,是近,一個解決長期問題,是遠,兩者相輔相成,無所謂誰替代誰。從社會角度來講,企業可以致力于大數據相關關系來創造更多的商機,而因果關系仍然是基礎研究需要追求的東西,不能說人類物質上滿足了,就不去追求更為本原的東西。
同時,大數據方法也可以發現因果關系,2014年,美國國防高級研究計劃局啟動其“大機理”項目。目的是發展可以發現隱藏在大數據中因果模型。典型“大機理”例子就是,1854年的倫敦地圖顯示爆發霍亂和污染的公共水泵之間的聯系。該發現推翻了當時認為疾病是通過空氣傳播的認識。大機理包含在巨大的、零碎的、有時相互矛盾的文獻和數據庫中,所以,沒有任何一個人可以理解該如此復雜的系統,所以必須依靠計算機。
DARPA辦公室最初使用“大機理”工具來研究導致細胞癌變的復雜分子之間的相互作用。該方法包括使用電腦掃描癌癥類論文,來獲取癌癥路徑的有關數據。獲取的數據片段可以組成”前所未有規模和精度”的完整路徑,以此來確定傳遞路徑如何互動。最后,自動工具可以幫助確定因果關系,該因果關系可用來開發潛在治療癌癥的方法。科恩說:“分子生物學和癌癥文獻強調機理,論文描述蛋白質如何影響其它蛋白質的表達,這些影響如何產生生物效果。電腦應該可以被用來分析這些癌癥類論文中的因果關系。”通過強調因果模型和解釋,大機理將成為科學的未來。
“小數據的問題,大數據就能解決”,大數據并沒有解決小數據問題
大數據體現了4V特征,但我們現在碰到的數據仍是主要是小數據,我們應該抱著務實的態度去解決小數據的問題,小數據的問題并不會由于大數據的產生而自動解決。
統計學家們花了200多年,總結出認知數據過程中的種種陷阱,這些陷阱并沒有被填平,比如采樣,大數據中有大量的小數據問題,這些問題不會隨著數據量的增大而消失,要注意數據(樣本)的偏差,比如Google的流感預測為什么近3年失敗,因為其隨機性實際不夠,比如媒體對于流感流行的報道會增加與流感相關的詞匯的搜索次數,進而影響Google的預測,對谷歌大肆炒作的流感跟蹤系統的研究結果發現,該系統多年來一直高估美國的流感病例。這項失敗凸顯了依賴大數據技術的危險性。
“谷歌在2008年推出的流感趨勢系統監測全美的網絡搜索,尋找與流感相關的詞語,比如“咳嗽”和“發燒”等。它利用這些搜索來提前9個星期預測可能與流感相關的就醫量。在過去3年,該系統一直高估與流感相關的就醫量,在這類數據最有用的流感季節高峰期尤其預測不準確。在2012/2013流感季節,它預測的就醫量是美國疾控中心(CDC)最終記錄結果的兩倍;在2011/2012流感季節,它高估了逾50%。”
發人深省的彩蛋觀點,關于啤酒和尿布有點雷
(1)數據化,而不是數字化
所謂的數字化指的是把模擬數據轉換成用0和1表示的二進制碼,而數據化是指把現象轉變成可制表分析的量化形式的過程,舉個例子,我們掃描實體書成為電子書,如果保存形式是圖片,這個只能叫作數字化,而我們通過字符識別軟件進行了文本解析,圖像就變成了數據化文本,兩者有本質的不同,萬物只有數據化后,才可以被量化,我們才能通過量化后的數據創造更多的價值。美國政府在提數據開放的時候,強調了開放的數據必須是可以有機讀的,就是這個意思,一個PDF的信息量跟一個WORD的信息量顯然是不一樣的。
(2)應用為王,不要迷信技術
目前各類企業都在建設大數據中心,但成本其實很大,當前的新的信息技術層出不窮,不斷冒出新概念,新名詞,大數據技術其實還在不停的發展,現階段,應該充分考慮成本因素,抱著應用為先的態度,技術始終要為應用服務,我們應該致力于用技術解決業務問題,而不是被潮流技術牽著鼻子走。不用迷信Google等技術公司的創新,有的放矢的借鑒,BAT做得足夠好,不要去貶低這些公司的技術創新性,不要用Google的AlphGo去鄙視百度的人工智能,應用始終為王,百度發明的人工智能輸入實際應用意義可能遠大于AlphaGo。
(3)隱私問題,不是那么簡單
告知與許可也許已經是世界各地執行隱私政策的基本法則,但這個法則有問題,大數據時代,很多數據在收集時并無意用于其它用途,但最終往往是二次開發利用創造了價值,公司無法告知用戶尚未想到的用途,而個人也無法同意這種尚是未知的用途。如果谷歌要使用檢測詞預測流感的話,必須征得數億用戶的同意,就算沒有技術障礙,有哪個公司能負擔得起。
同樣,所謂的匿名化在小數據時代的確可以,但是隨著數據量和種類的增多,大數據促進了數據內容的交叉檢驗。
政府在未來制定相關法規的時候,應該充分尊重事實,也許提前預防永遠無法解決大數據應用和隱私問題。
(4)大數據的驅動效應
大家所說的大數據是沙里淘金,大海撈針,導致人們總是渴望從大數據挖掘出意想不到的“價值”。實際上大數據更大的價值是帶動有關的科研和產業,提高個行業通過數據分析解決困難問題和增值的能力,大數據價值體現在它的驅動效益。
所謂的“啤酒與尿布”的數據挖掘經典案例,其實是Teradata公司的一位經理編造出來的“故事”,歷史上并沒有發生過,這個天雷滾滾啊。
馮.諾依曼指出:“在每一門學科中,當通過研究那些與終極目標相比頗為樸實的問題,發展出一些可以不斷加以推廣的方法時,這門學科就得到了巨大的進展。”在發展大數據技術和產業中,不應天天期盼奇跡出現,而應扎實多做“頗為樸實”的事,培育數據文化,打造大數據應用環境,提高決策合理性,開拓新的數據應用。
深有感觸,大數據推動了企業的數據文化,大家對于數據有了新的認識和充分的尊重,即使我們在用得大多仍然是小數據,那又如何,只要我們的心中的數據已經足夠大。

關注公眾號
獲取更多行業資訊
本站文章內容以及所涉數據、圖片等資料來源于網絡,轉載目的在于傳遞更多信息。版權歸作者所有,文章僅代表作者觀點,不代表華夏經緯立場。 如涉及侵權,請聯系管理員刪除。在法律許可的范圍內,華夏經緯(廣州)數據科技股份有限公司享有最終解釋權。