Android Windows java 程序员 centos 开源 apache Python Ubuntu 编程 Firefox linux google wordpress nginx shell 微软 php mysql 云计算

《統計會犯錯——如何避免數據分析中的統計陷阱》一第2章 統計功效與低功效統計

第2章 統計功效與低功效統計

統計會犯錯——如何避免數據分析中的統計陷阱


27b3008a5460bdaca99615c5081480d007a13dd6
在第1章中,你已經註意到由於沒有收集足夠的數據,可能會忽略那些真實的效應。例如,你拒絕了具有療效的新藥,或者忽視了重要的副作用。因此,應該收集多少數據才比較合適呢?

統計功效可以回答以上問題。一項研究的功效指的是,它能將某種強度的效應從純粹的運氣因素裏區分並識別出來的概率。如果一種藥物治療作用特別明顯,那麽它的識別就比較容易,而如果療效輕微,其識別往往比較困難。

功效曲線
設想我的對手有一枚不均勻的硬幣。擲出這枚硬幣,正面向上或反面向上的概率並不是1/2,相反,其中有一面向上的概率為60%。我和我的對手用這枚硬幣賭博,他宣稱這枚硬幣是公平的,但是我對此強烈懷疑,我應該用什麽方法來證明他在欺騙我呢?

我不能簡單地連續投擲這枚硬幣100次,然後以正面向上次數是否為50次來判斷硬幣是不是均勻的。事實上,即使是一枚均勻的硬幣,也不可能恰恰是50次正面向上。正面向上次數的概率分布如圖2-1所示。


36666fa347a93fd465bed9942747145491f2a22a
(擲一枚均勻硬幣(實線)或者不均勻硬幣(虛線)100次,正面向上次數的概率曲線,其中不均勻硬幣正面向上概率為60%。)

對於一枚均勻硬幣,正面向上50次是最可能的結果,但其發生的概率也小於10%,另外有略小的概率得到51次或52次正面向上的結果。事實上,當連續擲一枚硬幣100次,正面向上次數落在[40,60]區間內的概率為95%。換句話說,在這個區間之外的可能性較低:只有1%的概率得到正面向上多於63次或少於37次的結果。正面向上90次或100次幾乎是不可能的。

一枚不均勻的硬幣,其正面向上的概率為60%。連續擲這枚硬幣100次,所得正面向上次數的概率分布如圖2-1中的虛線所示。均勻硬幣的概率分布曲線和不均勻硬幣的概率分布的曲線有重合的部分,但是不均勻硬幣與均勻硬幣相比,更有可能得到正面向上70次的結果。

我們做一點數學計算。連續投擲一枚硬幣100次,然後數出正面向上的次數。如果這個次數不是50次,那麽在這枚硬幣是均勻硬幣的假設下,計算產生該結果或者更為極端結果的概率,這個概率就是p值。如果這個p值等於或小於0.05,我們就在統計上顯著地認為這枚硬幣是不均勻的。

利用p值的方法,我們有多大的可能性發現一枚硬幣是不均勻的?圖2-2所示的功效曲線回答了這個問題。在圖2-2中,橫軸表示硬幣正面向上的概率,表示硬幣不均勻的程度,而縱軸是利用計算p值的方法,得到這枚硬幣不均勻結論的概率。


d89e74df35c474dcc259ff56212fe8142ef831ae
(連續投擲硬幣100次或1000次兩種情況下,假設檢驗的功效。垂直的線表示一枚正面向上真實概率為60%的非均勻硬幣在這兩種情形下的檢驗功效。)

假設檢驗的功效是指產生統計顯著性結果(p <0.05)的概率。對於一枚均勻的硬幣,40~60次正面向上的概率為95%,因此對一枚不均勻的硬幣而言,檢驗功效就是指這枚硬幣正面向上的次數落在區間(40,60)以外的概率。有3種因素可以影響檢驗的功效。

偏差大小。一枚硬幣越不均勻,越容易被檢測出來。
樣本容量。如果收集足夠多的樣本,那麽即使是細微的偏差也可以檢測出來。
測量誤差。在上面的例子中,你能非常容易地數出正面向上的次數,但有一些試驗的指標測量非常困難,如醫學研究中的疲勞感和沮喪感。
我們首先討論偏差大小對檢驗功效的影響。如圖2-2所示,如果一枚硬幣輕微有偏,其正面向上的概率不是1/2而是60%,那麽在連續投擲100次後,通過假設檢驗的方法得到這枚硬幣是非均勻硬幣結論的概率為50%,也即是說,檢驗功效為50%。我們有一半的機會,得到正面向上次數少於60次的結果,從而不能判斷這枚硬幣是非均勻硬幣。這表明,僅僅依靠100次投擲數據,並不能把硬幣的輕微偏倚與隨機誤差分割開來。只有當這枚硬幣嚴重有偏,比如正面向上的概率為80%時,我們才能得到其為非均勻硬幣的結論,此時檢驗功效為100%。

這裏就有一個問題,即使一枚硬幣是均勻的,我們仍有5%的概率得到該枚硬幣不均勻的結論。我們的檢驗把p <0.05作為硬幣不均勻的證據,但一枚均勻的硬幣也可能得到p <0.05的結果。

幸運的是,增加樣本容量可以提高檢驗功效。圖2-2中的虛線說明,如果連續投擲硬幣1000次,那麽利用假設檢驗方法很容易識別出硬幣是否均勻,此時檢驗功效明顯高於投擲硬幣100次時的情形。這是因為,如果連續投擲一枚均勻硬幣1000次,正面向上次數位於(469,531)區間內的概率為95%,而正面向上超過600次可能性很低,一旦出現該結果就認為這枚硬幣是非均勻的,一枚正面向上概率為60%的非均勻硬幣卻很可能得到超過600次的結果,所以也就比較容易檢測出來。但不幸的是,我們沒有時間連續投擲一枚硬幣1000次。因此,出於實際考慮,單純靠增加樣本容量來提高檢驗功效是不現實的。

數出正面向上或者反面向上的次數比較容易,但對其他指標測量就沒那麽簡單了,比如智商。由於問題不同或被測人的心情波動,每次測試的分數會發生變化,從而為智商測量添加了隨機噪聲因素,使測試分數不能真實反映真正的智商。如果你比較兩組受試人員的智商分數,你會發現不僅不同受試者的分數具有正態變異,即使對同一名測試者,測試分數也會隨機波動。如果一個測試帶有較大的誤差,那麽統計檢驗的功效也會降低。

數據越多,我們越容易從噪聲中區分出信號。但說起來容易做起來難,科學家沒有足夠的資源開展具有高功效的科學研究,來檢測他們要找的信號,因此在開展研究之前他們就註定會失敗。

低功效困境
考慮下面一個試驗:在相同條件下,比較Fixitol和Solvix這兩種不同的藥物,以確定哪種藥物更加安全。由於藥物的副作用比較罕見,所以即使分別在100名患者身上測試這兩種藥物,在每一群體裏,也只要在少數患者身上產生嚴重的副作用。正如同我們難以區分兩枚正面向上概率分別為 50%和 51%的硬幣,如果兩種藥物的副作用發生率分別為 3%和 4%,那麽也難以把它們區別開來。如果有 4 名服用Fixitol的患者產生了嚴重的副作用,而只有 3 名服用Solvix的患者產生了副作用,此時你並不能得到Fixitol更有可能產生副作用的結論,這是因為此時檢驗的功效較低。

如果一個試驗不能有效地識別出某種效應,那麽我們就說這個試驗低功效。

你也許認為,對於醫學試驗而言,計算功效是必需的一個步驟;新藥開發人員為了檢驗一種藥物的效果,應確定召集多少名患者來參與這個試驗,而通過計算一下功效就可以得到答案。令科學家感到滿意的試驗的功效是80%或者比這更高,這也就意味著能夠有80%或更高的概率檢測到一種特定大小的真實效應。

然而,鮮有科學家計算統計功效,也很少有期刊論文提及統計功效。在最權威的期刊《科學》和《自然》上,在開展研究之前計算統計功效的文章少於3%1。實際上,許多試驗的結論是:“雖然兩組效果具有大的差異,但是在統計上並沒有顯著性”。這些試驗絲毫不提及,可能是因為沒有收集到足夠的數據,所以它們的功效較低,發現差異卻沒能得到顯著性的結論2。如果有些試驗是在比較兩種藥物的副作用,那麽以上錯誤結論就意味著,兩種藥物都是同樣安全的,而事實上,其中某種藥物可能比另一種更加危險。

你也許認為上述問題只在副作用發生概率很低或者副作用影響不大時才會產生。事實上絕非如此。我們收集了1975~1990年在權威醫學期刊上發表的一些試驗,發現在那些報告沒有顯著性差異的試驗中,約有4/5的試驗沒有收集足夠的數據,來檢測治療組與對照組之間25%的效果差異。也就是說,即使一種藥物比另一種藥物能將病狀降低25%,卻由於沒有足夠的數據,仍然不能作出上述結論。另外,約有2/3的試驗的功效較低, 未能檢測出50%的效果差異3。

在最近關於癌癥試驗的一項研究中,有類似的結論:在那些得到陰性結論的研究中,僅有一半有足夠的功效能識別出主要結果的差異,其他研究均因功效過低沒有得到有用發現4。在這些低功效的研究中,只有不到10%解釋了為什麽選取的樣本容量如此之少。類似的低功效問題在醫藥研究的其他領域也時常發生5,6。

以上問題在神經科學的研究中尤為突出。每項神經科學研究收集了過少的數據,以至於平均每項研究只有20%的功效。為了彌補低功效的不足,你可以將研究同一效應的所有論文數據整理在一起進行分析。既然神經科學研究都以動物作為研究對象,因此就產生了倫理問題。如果一項研究功效較低,那麽只有完成更多的研究,使用更多的動物作為研究對象,才能發現真正的效應7。倫理道德委員會不應支持開展那些功效較低、不能發現目標效應的研究。

低功效的原因
奇怪的是,低功效問題由來已久,但現在仍然非常普遍。1960年,Jacob Cohen分析了發表在《Journal of Abnormal and Social Psychology》8上試驗的功效,他發現平均而言,這些試驗能夠檢測出中等效應的功效只有48%[1]。Jacob Cohen的研究被引用上百次,而且類似的評論也接踵而至,一致要求進行試驗時需計算功效並擴大樣本容量。1989年,一篇評論指出,在Cohen得到以上分析結論後的10年裏,平均的研究功效實際上又下降了9!這是因為,研究人員開始意識到多重假設檢驗問題,而在解決多重假設檢驗問題的過程中,研究的功效進一步降低了(我們將在第4章討論多重假設檢驗問題,那時你將會看到我們必須在研究功效和多重假設檢驗修正之間做出取舍)。

為什麽我們經常忽視功效計算?原因之一是樣本大小和功效結果給我們的直觀感受不一樣。即使在功效極低的情況下,我們經常認為試驗對象已經足夠多了。舉個例子,假如你在測試一項新的心臟病治療方案,希望將死亡風險從20%降低至10%。你可能會這樣想:如果對50名患者采用這項新的方案,沒有發現明顯差別,那麽新治療方案就沒帶來多少好處。但是為了使功效達到80%,你實際上需要多達400名患者,每個治療組裏有200名患者而不是50名患者10。臨床醫生往往未意識到他們的樣本容量太小。

在數學上準確計算功效難度較大,甚至有時無法計算,這是忽視功效計算的另外一個原因。在統計課堂上,一般不會講授計算功效的方法,並且一些商用軟件中也沒有計算功效的函數。當然,你也可以不用數學而是利用隨機模擬的方法計算功效。首先模擬具有你所期待效應的成千上萬個數據集,然後在每一個數據集上進行統計檢驗,得到顯著性檢驗結果的比例就是功效。但是這種方法需要編程經驗,而且模擬現實數據也充滿技巧。

盡管計算困難,但你可能認為科學家應該註意到了功效問題並試圖進行改進:連續5次或6次試驗都顯示不顯著的結果,科學家就應懷疑在某些地方出了問題。然而,一般的研究並不只做單個假設檢驗而是很多、很有可能得到顯著性的結果 11。只要該顯著性的結果非常有趣,就可以看成是論文的亮點,這名科學家此時早已忘記研究功效較低的問題。

低功效並非意味著,當科學家們聲稱兩組之間沒有顯著性差異時,他們在說謊。但是如果認為這些結果表明確實不存在差異,那這就是誤導了。差異甚至一個非常重要的差異可能是存在的,只是由於研究的規模太小沒能發現這種差異。下面,我們考慮生活中的一個例子。

遇紅燈時錯誤轉彎
20世紀70年代,美國許多地方開始允許司機遇到紅燈時右轉。而在很多年以前,城市道路規劃人員認為,允許紅燈右轉會帶來安全隱患,引起更多的交通事故和行人死亡。但是1973年的石油危機促使交通管理部門考慮實施這項政策,因為這樣就能減少等待紅燈時的汽油浪費。最終,國會要求各州實施該政策,並把它作為一項能源節約措施,就像建築物隔熱有效采光措施一樣。

一些研究考察了該政策帶來的安全影響。其中,弗吉尼亞公路與運輸局的咨詢部門對比了政策變化前後,州內 20 個交叉路口的交通事故發生情況。他們發現,在允許紅燈右轉之前,這些交叉路口發生了 308 次事故,而在允許紅燈右轉之後,相同時間內發生了 337 次事故。他們的報告指出,雖然事故發生率增加了,但這種差異在統計上是不顯著的。在看到這份報告後,公路與運輸局的官員寫道:“我們可以相信,紅燈右轉政策並未給汽車駕駛員或行人帶來顯著的危險隱患”12。顯然,官員們把統計上的不顯著直接當作現實中的不顯著。

後續研究有類似的發現:相撞事故次數略有增加,但並沒有足夠的數據表明這種增加是顯著的。正如一份報告所指出的:沒有理由懷疑在實施“紅燈右轉”後,行人被撞事件的次數增加了。

顯然,以上研究均是低功效的。但是越來越多的州和城市開始允許紅燈右轉,在整個美國這種做法也變得非常普遍。沒有人嘗試將各項研究的數據整理在一起,形成一個更有用的數據集。與此同時,越來越多的行人被撞傷,越來越多的汽車被撞毀。沒有人收集足夠的數據來說明這種情況,直至若幹年後,一些研究才發現,由於右轉,汽車撞毀頻率比以前提高 20%,行人被撞的頻率比以前高 60%,幾乎是騎自行車的人被撞頻率的 2倍13,14,[2]。

然而,交通安全部門並沒有吸取教訓。例如, 2002 年的一項研究考察鋪砌的路牙對鄉村公路交通事故發生率的影響。不出意外,路牙降低了事故風險,但沒有足夠的數據說明這種下降在統計上是顯著的,因此研究人員的結論是,鋪砌路牙子的花費是不值得的。他們混淆了不顯著的差異和完全沒有差異,盡管數據已經表明鋪砌的路牙可以改善交通安全12。一個更好的分析的結論似乎應該是這樣的,鋪砌路牙的好處在統計上是“不顯著”的,但是數據表明鋪砌路牙確實帶來了巨大好處。這就是置信區間的分析方法。

置信區間的優勢
與考慮試驗結果的顯著性相比,置信區間是一種更合理的結論表述,它可以給出效應的大小。即使置信區間包含0,它的寬度也會告訴你很多信息:一個狹窄的包含 0 的置信區間表明效應可能比較小,而一個較寬的包含 0 的置信區間則表明測量值並不十分精確,因而不足以作出結論。

對於那些與0沒有顯著差異的測量,物理學家常常使用置信區間給出它們的界值。例如,在搜索基礎粒子時,“該信號在統計上是不顯著的”這種說法沒有意義。相反,對於粒子撞擊時的速率,物理學家一般利用置信區間賦給它們一個上界,然後將這個結果與預測粒子行為的已有理論進行比較(促進未來的試驗人員建造更大的試驗設備來發現它)。

利用置信區間來解釋結果為試驗設計提供了一種新思路。不再關註顯著性假設檢驗的功效,轉而問這樣的問題:“我應該搜集多少數據來度量理想精度的效應?”盡管高功效的試驗可以產生顯著性的結果,但如果其置信區間很寬的話,結論同樣難以解釋。

每次試驗的數據會不一樣,所以每次試驗得到的置信區間大小也會發生變化。以前是選擇一個樣本大小以達到某種程度的功效水平,現在我們選擇一個樣本容量大小,只要使得到的置信區間的寬度小於目標寬度的概率達到99% 即可(這個數字被稱為其並沒有固定的標準,或者是95%)16。

在常見的假設檢驗裏,已經發展出很多依賴於置信度的樣本量選擇方法;不過這仍然是一個新的領域,統計學家還沒有研究透徹17(這些方法的名字是樣本估計的精度,英文縮寫為AIPE)。統計功效比置信度使用更多,在各領域裏統計學家還沒有采用置信度。盡管如此,這些方法非常有用。統計顯著性經常是拐杖,名字雖然中聽,但並不能像一個好的置信區間那樣提供多少有用的信息。

膨脹的真理
假設相對於安慰劑,Fixitol能將癥狀減少20%。但你的試驗樣本可能太小,沒有足夠的統計功效可靠地檢測到這種差異。我們知道,小試驗常常產生更具有變異性的結果;你很可能恰恰找到10個幸運的患者,他們的感冒時間都較短,但找到10000個感冒時間都較短的患者的可能性基本上為0。

設想不停地重復以上試驗。有時你的患者並不是那樣幸運,因此你沒有註意到你的藥物具有明顯的改善作用;有時你的患者恰好具有代表性,他們的癥狀減少了20%,但你沒有足夠的數據證明這種減少在統計上是顯著的,因此你將其忽略;還有一些時候,你的患者非常幸運,他們的癥狀減少遠超過20%,這時你停下試驗說:“看,它是有效的!”你把所有的結果畫在了圖2-3中,顯示了試驗結果產生的概率。


7b709e8db8c17f10d9c746959fcab2753948964e
(如果你重復進行試驗,你將會看到試驗結果的一個分布。垂直虛線是在統計上具有顯著性的效應值。真正的效應值是20%,但你可以發現觀測效應值分布在-10%~50%這樣一個較寬區間裏。只有少數幸運的試驗結果是顯著的,但是它們都誇大了效應的大小。)

你得到了正確的結論,即Fixitol是有效的。但因為試驗是低功效的,所以你誇大了效果的大小。

以上現象被稱為真理膨脹,或者M型錯誤、贏者災難。這種現象經常發生,尤其在那些進行類似試驗爭相發表最激動人心結果的領域經常見到,例如藥理學試驗、流行病學研究、基因關聯研究、心理學研究等。在那些引用最多的醫學文獻裏以上現象也比較常見18,19。在快速發展的領域,比如基因研究,早期論文的結果常常比較極端,這是因為期刊很願意發表這樣新的、令人振奮的結果。相比較而言,後續研究的結果就不那麽誇張了20。

就連《自然》和《科學》這樣的頂級期刊,也喜歡發表具有開創性理論成果的研究論文。這些開創性成果一般意味著大的效應,往往是在鮮有人研究的、比較新奇的領域裏產生的。這是慢性真理膨脹與頂級期刊的完美組合。已有證據表明,期刊影響因子和其發表的“激進”研究具有相關性。那些結論不怎麽令人振奮的研究更接近於真理,但是大多數的期刊編輯卻對其不感興趣21,22。

當一項研究聲稱在小樣本下,發現了一個大效應時,你的第一反應不應是:哇哦,他們發現了這麽有趣的現象!而應是:他們的研究可能是低功效的23!來看一個例子。從2005年起,Satoshi Kanazawa發表了一系列關於性別比例的論文,最後一篇論文的題目是“漂亮父母會生更多的女兒”。他出版了一本書專門對此進行討論,書中涉及其他一些他發現的“政治上不正確的真相”。這些研究在當時非常流行,尤其是因為Satoshi Kanazawa所得到的驚人結論:最漂亮父母生女兒的概率是52%,最不漂亮的父母生女兒的概率是44%。

對生物統計學家而言,一個微弱的效應——如一個或兩個百分點,具有重要的含義。Trivers–Willard假設認為:如果父母有某些特點,更容易生出女孩,那麽他們就會有更多的女孩,反之亦然。如果你認為漂亮的父母更容易生出女孩的話,那麽平均而言,這些漂亮父母就會擁有更多的女兒。

但是Kanazawa得到的結論比較特殊,後來他也承認在分析中有些錯誤。基於他所收集的數據,修正之後的回歸分析表明,漂亮父母擁有女兒的概率確實比平均水平高4.7%,但這只是一個點估計,這個差距的置信區間是(−3.9%, 13.3%),0在這個區間內部23。這說明,雖然Kanazawa采用了3000對父母的數據,但結果在統計上仍然是不顯著的。

需要大量的數據才能可靠地識別出微小的差異。例如一個0.3%的差異,即使有3000對父母的數據,也不能將0.3%的觀測差異與隨機誤差區分開來。在3000的樣本容量下,只有5%的可能性得到在統計上顯著的結果,而且這些顯著性的結果已經將效應值(0.3%)誇大了至少20倍,並且約有40%的可能得到的顯著性結論恰恰相反,即認為漂亮父母更有可能生男孩23。

因此,雖然Kanazawa進行了完美的統計分析,但他仍然高估了真實的效應。按照他的做法,他甚至還可以發表這樣的論文:工程師會有更多的男孩,護士會有更多的女孩[3]。他的研究無法識別預想大小的效應。如果他在研究之前進行一個功效分析的話,可能就不會犯這種錯誤了。

微小的極端
因為小規模、低功效研究的結果變異性很大,所以產生了真理膨脹的問題。有時你非常幸運,得到一個在統計上顯著卻誇大其辭的估計結果。除了顯著性檢驗分析,在其他分析中,較大的變異性也會帶來麻煩。來看一個例子。假如你負責公立學校的改革,作為最優教學方法研究的一部分,你想分析學校規模大小對學生標準化測驗分數的影響。小學校是否比大學校更好呢?應該建立為數眾多的小學校還是建立若幹所大學校?

為了回答以上問題,你整理了表現良好的學校的一個列表。普通學校平均有1000名學生,你發現最好的10所學校學生的數目均少於1000。這似乎意味著,小學校做的最好,原因可能是因為學生少,老師可以深入了解每個學生並有針對性地幫助他們。

然後你又看了一下表現最差的學校,這些學校都是一些擁有成千上萬學生、超負荷工作老師的大學校,與你的預想恰恰相反,這些最差的學校也是一些小學校。

為什麽?現在,看一下測試分數與學校規模的散點圖,如圖2-4所示。小學校學生少,所以他們的測試得分有很大的變異性。學生越少,就越難估計出一個學校的真實平均水平,甚至少數幾個異常的分數就會使一個學校的平均水平發生大的偏差。當學校的規模變大時,測試分數的波動變小,平均分數有上升趨勢24。


388cb77c1f52fa6f44dbff971b89811f7de85bf5
(學生越多的學校,測試分數的波動程度就越小。這些數據是基於賓州公立學校的真實觀測數據模擬得到的。)

來看另外一個例子:在美國,腎癌發生率最低的縣往往位於中西部、南部和西部的農村地區。為什麽這樣?也許是因為農民幹農活鍛煉了身體,或者是因為他們一直呼吸免受汙染的空氣,還可能是因為他們生活壓力很小。

但是,我們發現那些具有極高腎癌發生率的縣也往往位於中西部、南部和西部的農村地區。

為什麽這樣?這是因為,農村地區的縣人口特別少。如果一個縣有10個居民,而其中有一位患有腎癌,那麽該縣的腎癌發生率就是最高的。由於人口特別少,這些縣的腎癌發生率具有很大的波動性,其置信區間往往也會很寬25。

應對以上問題的常用方法是壓縮估計。對於那些人口很少的縣,你可以將他們的癌癥發生率與全國水平做一個加權平均,從而使得過高或過低的癌癥發生率向全國平均水平收縮。如果一個縣的居民特別少,那麽在加權平均時應該為全國水平賦一個較大的權重,而如果一個縣的居民較多,那就為該縣的癌癥發生率設定較大的權重。在癌癥發生率地圖的繪制以及其他一些應用中,壓縮估計是一種普遍的做法[4]。不過,壓縮估計會不加選擇地改變結果:如果一個縣的人口較少,但是其癌癥發生率確實很高,壓縮估計往往會使得最後的估計結果接近全國水平,完全掩蓋了這個縣的真實情況。

處理以上問題並沒有萬全之策。最好的做法就是完全回避它:不按照縣的劃分來估計發生率,而是按照國會選區進行計算,這是因為在美國每個國會選區的人口都大致相當,而且遠遠多於一個普通縣域的人口。不過,國會選區在地圖上的形狀往往奇形怪狀,不如縣域那麽規則,所以基於國會選區得到的癌癥發生率地圖,雖然估計比較準確,但卻難以解釋。

而且,讓各個單元都有相同樣本大小的做法並不總是奏效。例如,在線購物網站在對商品進行排序時,其依據是顧客的評分,但此時並不能保證參與各種商品評分的顧客數目都是一樣的。又如,在像reddit這樣的論壇網站上,一般會按照網友的評價對帖子進行排序,但是有的帖子有很多人評價,而有的帖子評論人寥寥可數,這與帖子發布的時間、地點和樓主有很大的關系。壓縮估計就可以應對以上情況。購物網站可以將每個產品的評分與總體水平進行加權平均。這樣,鮮有人評分的產品默認是平均水平,而有大量顧客評分的產品可以按照它們各自的平均評分進行 排序。

另外,reddit網站上的帖子並沒有評分機制,跟帖的人只能表示贊成或反對。為了對帖子進行排序,一般會求得這個帖子支持率的置信區間。當帖子的跟帖很少時,置信區間會很寬,隨著跟帖的人越來越多,置信區間就會越來越窄,最後集中到一個確定的值(例如,70%的跟帖喜歡這個帖子)。新帖子的排名往往墊底,但隨著跟帖人越來越多,其中質量較高的帖子置信區間變得越來越窄,不久就會上升到前面。並且,由於帖子是依據支持率而不是跟帖數目進行排序的,所以新帖子也完全可以和具有大量跟帖的帖子競爭26,27。

註意事項

在設計試驗時,先計算統計功效,以此來決定所需樣本的大小。不要跳過這一步。如果你對統計功效不甚了解,可以閱讀Cohen’s的經典教材《行為科學的統計功效分析》或者向統計專家進行咨詢。如果試驗樣本大小不切實際,最後結論的可靠性就會大打折扣。
如果你想精確地度量某種效應,請不要單純地進行顯著性檢驗,更好的做法是設計滿足置信度的試驗,這樣就能以理想的精度度量某種效應。
請銘記“統計上不顯著”並非意味著“0”。即使你的結果是不顯著的,該結果也代表基於你所收集的數據所得到的估計。“不顯著”與“不存在”並不等價。
持質疑態度看待那些低功效研究的結論,這些結論可能誇大真實情況。
請使用置信區間作為最後的答案,不要過分關註統計上的顯著性。
當比較規模不同的組時,請計算置信區間。置信區間可以反映估計的精確程度:規模較大的組置信區間較窄,估計更精確。
[1] 如果兩個試驗組之間具有0.5個標準差大小的差異,Cohen就把這種差異稱為中等大小的效應。

[2] 需要註意的是,由於紅燈右轉帶來的交通事故所造成的人員傷亡總數是很少的。紅燈右轉帶來了更多的交通事故,但是從整個美國來看,增加的傷亡人數不超過100人15。盡管如此,因為統計上的錯誤,紅燈右轉這項政策每年仍會使數十人喪生。

[3] Kanazawa在2005年的《Journal of Theoretical Biology》上確實發表了這篇文章。

[4] 當然,“壓縮估計”不等於簡單地加權平均,在統計分析中,有更為復雜的壓縮估計方法。
版權聲明:本文內容由互聯網用戶自發貢獻,版權歸作者所有,本社區不擁有所有權,也不承擔相關法律

延伸阅读

    评论