如何看待統計模型
時間:2018-12-25 15:06 閱讀:1315 整理:市場調研公司
統計模型法是統計學的最基本研究方法之一,略復雜一點的統計分析通常就會借助統計模型。一般地,統計模型可以分類為參數模型與非參數模型、線性模型與非線性模型、一元模型與多元模型等等,應用領域十分廣泛。然而,統計學家George Box曾經說過:所有的模型都是錯的,但有些是有用的。我們該如何理解其中的意思?
所謂統計模型,顧名思義就是用以刻畫、反映現象發展變化趨勢、或測度不同現象之間內在聯系關系、或據以推斷總體特征的數學方程,所以模型構建的過程,就是把上述趨勢、關系和特征進行量化的過程,因而統計模型的關鍵詞就是變量、參數和方程形式。衡量統計模型的構建是否成功,就看其中的變量、參數和方程形式是否符合所研究問題的實際情況而渾然一體。
為什么說所有的統計模型都是錯的呢?我想可以這樣來理解:首先,統計模型畢竟只是用一定的方程給出一個模擬的型態,由于不知道所研究問題的實際情況,所以模擬的過程沒有真實的參照物,只能根據已經掌握了的有關信息去勾勒其可能的狀態,因而它不是真實的,與實際情況不可能完全一致。其次,統計模型的構建有很多假設條件或限制條件,這些假設通常由一組概率分布來描述,其中一些概率分布被假定為充分近似于對特定總體進行抽樣的分布,因此,統計模型只是以相當理想化的形式來表示所研究問題的數據生成過程,是統計推斷理論的形式化表示,而這些假設條件或者分布往往是不嚴格成立的,有時甚至差距很大。第三,統計模型由與一個或多個變量相關的數學方程來確定,確定的依據是已掌握的樣本數據或歷史數據,是樣本數據(歷史數據)與方程形式固化的理想結果,因此在據以進行放大推斷或外推預測時,實際情況不可能與模型保持一致。第四,在統計模型中,我們通常都把涉及到的變量當成隨機變量來處理,而事實上很多變量、特別是社會經濟統計變量并不是完全的隨機變量而是半隨機變量,因此,基于隨機變量假設的統計模型不能很好地刻畫半隨機變量的統計數據特征。第五,就同一個研究問題而言,可以構建的統計模型絕對不止一個,無論是方程形式、變量及其個數、參數設定還是有關假設,都可以有多種選擇,沒有公認的評判標準,在不可能構建出所有統計模型的情況下,只能按照一定的原則給出其中的一個模型。綜上所述,沒有一個統計模型可以做到與實際情況完全一致,有些還相差甚遠,因而所有統計模型都是錯的。如果依賴統計模型就能解決實際問題,那么世界就變得簡單了,而事實并非如此。
但為什么又說有些是可用的?我認為其理由在于,統計研究作為量化認識事物本質特征的方式,就是要用統計數據去描述事物特征,以統計規律去逼近事物的本質規律,而統計模型則是發現和描述統計規律的有效工具之一。當基于統計模型的統計規律能夠比較好地解釋客觀事物的問題、本質和發展趨勢時,它就是有用的。也就是說,統計模型是否有用,取決于它對現實問題的定量解釋能力。那么,其定量解釋能力來自何處?這才是問題的關鍵。我認為它來自于對所研究問題的了解程度,來自于對涉及變量的解讀及其關系的判斷程度,來自于相關假設條件的滿足以及對它們的把控程度,來自于數學方程的適應性和可解性,來自于構建模型所需數據的真實性和可取得性。只有當這些方面都達到相當高的程度時,統計模型才具有足夠的定量解釋能力,才有意義。然而在現實中,并非所有的統計模型都能做到這些要求,通常只有一部分符合這些要求,所以說“有些”是“有用”的。由此可見,要想構建一個可用的統計模型絕非易事,需要做大量的工作。
這里,我們再借用一個例子來說明“所有的模型都是錯的,但有些是有用的”這句話的道理。我們身上的服裝,絕大多數情況下都是商場購買的成衣,很少量身定做。廠家如何批量生產服裝?依靠模型。服裝模型對于能否生產出受消費者歡迎的款式十分重要,它需要考慮的尺寸變量少則幾十個,多則上百個。它需要先根據特定消費者群體的身高體胖特征分成若干組(大、中、小),然后每一組再設定幾個款型(松、緊)。由于人的身高體重可以通過調查觀察掌握其大致分布規律,因此設定若干比較合適的服裝模型是可以做到的。最后被確定用以生產服裝的模型,是從大量的設計模型中篩選出來的。嚴格地講(即就消費者個體而言),任何一個服裝模型都是錯的,因為它都不是根據消費者個人的身材來制定的,都只是消費者群組中各個變量的平均值,消費者只能按照靠近原則選擇尺碼最適合的服裝。但實踐證明,這些服裝模型是有用的,因為它基本符合了特定消費者群體身高體胖的分布特征,多數消費者可以選擇到尺碼比較合適的服裝。少部分消費者選擇不到尺碼合適的服裝,就相當于統計模型中的誤差。部隊服裝的供給,也是根據這個原理。
總之,模型是固化的,而現實是變化的。用固化的模型去反映動態的現實,只能是一種參考。所以,我們在開展統計分析時,要一分為二地看待統計模型,既不能輕易否定統計模型的作用,也不能盲目崇拜統計模型,而是要一切從實際出發,根據問題本質來考慮是否需要借助統計模型、需要構建什么樣的統計模型以及如何構建統計模型。特別需要指出的是,我們應該努力避免濫用統計模型的現象?,F在有一種普遍觀點,認為沒有統計模型的統計分析是沒有深度的。無論是公開出版的期刊論文,還是學士、碩士和博士論文,都大量充斥著各種各樣的統計模型。在有些學科領域,有無統計模型成了衡量論文水平的不二法則。在這樣的導向下,很多論文就生搬硬套統計模型,不顧所討論問題的背景和本質,不管有關假設條件是否滿足,不論作為建模依據的內在機理是否清晰,不究相關變量之間的內在聯系是否成立,就給出了所謂漂亮的模型。有些統計模型構建者,甚至都沒有弄明白要做什么,沒有讀懂統計指標的含義和數據的意義,就“調”出了自稱理想的結果,細細一究,卻是自相矛盾、漏洞百出,難以自圓其說。有些文獻的所謂研究結論,其實根本不需要統計模型就顯而易見,利用統計模型充其量只是論證了“吃飽了就不餓”,純粹是為了模型而模型。有的統計模型,自始至終不斷地假設、不斷地推演,正如弗里德曼學說所認為的那樣“模型的假設是什么無關緊要”,從而實際問題變成了數學推導,應該有實際意義的定量結論變成了抽象的數字,使人難以理解其所表達的意思。在這種情況下,“假設”就成了掩蓋事實的遮羞布。有的文獻,把簡單問題復雜化,明明依靠簡單的統計模型就可以說明問題,但為了追求所謂的學術性,偏要搞一大堆符號和公式,非要繞大圈子去建一個復雜的模型,生怕讀者輕易地讀懂文章的內容而影響其“高大上”。凡此種種,都不是科學求是的精神。
統計模型是統計分析的重要工具,但用在哪里、怎么用大有講究,千萬不能隨心所欲。歸根結底,統計模型是為定量分析服務的,是輔助性的,而正確理解問題的本質、指標(變量)的含義和數據的意義,科學測度所研究事物的特征,才是根本。我們在利用統計模型開展統計分析研究時,絕不能唯模型是論,不能本末倒置。一定要以“需要、合適、精煉”為原則,把主要功夫花在弄懂問題、讀懂指標含義和數據意義上。否則,那就真的成了“所有的統計模型都是錯的”,沒有可用的了。
真正的高手是化繁為簡。在需要的情況下,如何在看清問題和讀懂數據之后,用簡明、合適的統計模型給出人們容易理解的分析結論,是我們共同追求的目標。特別是在進入大數據時代以后,如何對大數據(尤其是非結構化數據)構建統計模型,無論是思維方式還是具體方法,都是我們需要面對的新挑戰。

關注公眾號
獲取更多行業資訊
本站文章內容以及所涉數據、圖片等資料來源于網絡,轉載目的在于傳遞更多信息。版權歸作者所有,文章僅代表作者觀點,不代表華夏經緯立場。 如涉及侵權,請聯系管理員刪除。在法律許可的范圍內,華夏經緯(廣州)數據科技股份有限公司享有最終解釋權。