2023年3月10日 星期五

BMJ小小統計問題(81):Understanding confidence intervals (了解信賴區間)

  BMJ小小統計問題(81):Understanding confidence intervals (了解信賴區間)


 

 

Cite this as: BMJ 2014;349:g6051

https://www.bmj.com/content/349/bmj.g6051

 


前言

本周的主題有點燒腦,嘗試把信賴區間的意義講清楚,說明白。相關主題可看BMJ小小統計問題(80):Standard deviation versus standard error (標準差和標準誤)以及BMJ統計問題(10):信賴區間、P值及統計意義 (Confidence intervals, P values, and statistical significance)。還有接下來的兩期,都是針對信賴區間的主題作說明。最近忙著跟ChatGPT交朋友、統計諮詢、上課、及規劃課程。ChatGPT的模型應用如雨後春筍般冒出,進展真的是很快,一眨眼,2023年就猝不及防地進入了大AI航海時代。「AI改變未來,你是其中之一。」 by ChatGPT

 

問題

研究人員調查在高資源環境中進行第三產程控制性脫臍帶對產後出血的影響。採用隨機對照試驗研究設計。對照治療是標準的胎盤排出(在促進排出前等待自發的胎盤分離)。該研究的參與者是法國大學醫院產科單位的18()以上、懷孕35週或以上、計劃自然產的女性。兩組治療女性在分娩後立即接受預防性催產素。主要結局是產後出血,定義為500毫升或更多的失血。2005名分配到介入組的女性中,有196名(9.8%)發生產後出血,對照組的2008名女性中有206名(10.3%)出現產後出血。與介入相關的產後出血風險降低不顯著(RR=0.9595%信賴區間為0.79~1.15)。研究人員得出結論:在高資源環境中,使用控制性脫臍帶管理胎盤排出對產後出血的發生率沒有顯著影響[1]

下列敘述何者正確?

a95%信賴區間代表樣本估計母群體相對危險性的不確定性

b)若試驗樣本增加,95%信賴區間的會變窄

c)對於母群體的RR99%信賴區間將會較95%信賴區間更窄

d)可推斷介入組有95%的人失血量會是對照組的0.79~1.15倍間

答案: ab正確,cd錯誤。

 

詳細說明

本文旨在探討第三階段控制臍帶的牽引對產後出血的影響。相較於控制組,介入組的產婦出現產後出血的比率較少(9.8% vs. 10.3%RR=0.95)。因此,與控制組相比,介入組產婦的產後出血風險降低了5%RR是樣本估計值,有時稱為點估計,用於估計的母群體參數:若所有人都接受介入,與接受標準照護相比,在母群體中觀察到的相對危險性。母群體是所有滿35週孕齡、單一胎兒、計劃進行自然產的18歲或以上孕婦。母群體RR是不變但未知的,因此需要進行抽樣估計。樣本只包括部分母群體,因此可能引起抽樣誤差,即樣本估計值可能與母群體參數不相等(a正確)。

RR為介入組與對照組的產婦相比下產後出血的相對危險為0.9595%信賴區間為0.79~1.15。信賴區間的概念是基於理論狀況,即從母群體中無限次抽樣。這些無限次抽樣的每一個樣本將具有相同的樣本大小且在相同的條件下獲得。這些樣本將隨機從母群體中選擇,因此不包含相同的成員。所以,每個樣本都會提供不同的樣本估計值和95%信賴區間,用於估計產後出血的母群體RR。在這無限多個樣本中的95%其95%信賴區間將包含母群體參數。但是,並無法得知哪些樣本的信賴區間將包含母群體參數。無法預測本研究中RR95%信賴區間(0.79~1.15)是否包含母群體參數。 此外,無法預測95%信賴區間內的哪個值(如果有的話)表示母群體參數。

 

然而,從定義上講,有95%的無限樣本會有一個95%信賴區間,其中包含了母群體參數。但從一個95%信賴區間可以推斷出的結論並不直觀。尤其無限取樣的概念是抽象的,而一個研究只有一個樣本估計和相關的母群體結果的信賴區間。0.95的機率是獨立事件出現的長期平均值,即無限樣本中計算所得的95%信賴區間會包括母群群體參數的比例,因此不適用於單個信賴區間。對信賴區間提供易於理解的解釋通常會引發爭議。以本研究而言,推斷出有0.95的機率,95%信賴區間(0.79~1.15)包含母群體參數是合理的。亦即,有0.95的機率母群體RR會被包含在0.79~1.15區間中。然而,有人認為這樣的解釋是不正確的。若建議母群體參數可能位於兩個數字間,即意味參數並非常數。此外,此句暗示0.95的機率適用於母群體參數,及它是否被包含在單個信賴區間中,而非理論的無限可能樣本中。但是,在95%信賴區間在解釋上的爭議可能只是關於詞語使用或對機率應用於單個事件的解釋問題。

 

本研究中的母群體RR的信賴區間是從樣本估計的標準誤推導出的。標準誤表示樣本對母群體參數的估計精確度,是從樣本數據中推導出來的[2]。信賴區間在樣本RR兩側延伸,每一側延伸的距離是標準誤的倍數。與母群體參數(如平均值)的信賴區間不同的是,母群體RR的信賴區間並非以樣本估計值左右對稱。因為信賴區間是以對數刻度(logarithmic scale)計算的,並且使用anti-logged(即反算)以提供母群體參數的信賴區間。

 

95%信賴區間的寬度是由標準誤的大小所決定。較大的標準誤表示對於母群體RR的樣本估計較不精確,導致較寬的信賴區間,亦即表明樣本在估計母群體參數時存在更大的不確定性。若上述研究的樣本逐漸增加,標準誤將逐漸減小,95%信賴區間的寬度也會減小(b正確)。此反映樣本RR成為母群體RR更準確的估計。因為當樣本增加並接近母群體數量時,樣本RR將更接近母群體參數。

 

在研究中,通常會呈現95%信賴區間。也可以使用不同百分比的信賴區間,例如90%99%。對於產後出血的人群,若使用99%信賴區間,其信賴區間的寬度將大於所呈現的95%信賴區間 (c錯誤)。因為99%信賴區間包含了更大的機率,可以包括母群體參數。透過信賴區間的寬度增加機率,使得信賴區間內含有母群體參數的機率更高。若使用90%信賴區間,則其信賴區間寬度將小於所呈現的95%信賴區間,即信賴區間內含有母群體參數的機率也較低。95%信賴區間是權衡考量的結果,因為更小的百分比提供的區間估計不能有足夠的保證,而更高的百分比則會得到過於廣泛且實際效益不大的區間估計。

 

如上所述,對於本試驗,95%信賴區間是介入組與對照組在母群體產後出血RR的區間估計。普遍誤解是,95%信賴區間描述的是95%樣本或母群體在結果指標上的經驗。如,0.79~1.1595%信賴區間並不意味著在試驗中95%的介入組失血量介於對照組的0.79~1.15倍間(d錯誤)。信賴區間也非意指若他們接受介入措施,與對照組相比,則95%的母群體預計會失去0.79~1.15倍的血液。

 

從母群體RR95%信賴區間可以推斷出介入組和對照組在產後出血風險方面差異的統計學意義。若比較治療組和對照組在結果變數上的RR95%信賴區間包括1.0,則在5%的統計水準上之假設檢定將不具有統計學意義-P值將大於或等於0.055%)。本研究母群體RR95%信賴區間為0.79~1.15,因此不存在拒絕虛無假設,支持對立假設的證據。因此,研究者得出結論,在高資源的情況下,使用控制臍帶牽引來管理胎盤娩出對產後出血的發生率沒有顯著影響。

 

Reference

[1] .Deneux-Tharaux C, Sentilhes L, Maillard F, Closset E, Vardon D, Lepercq J, et al. Effect of routine controlled cord traction as part of the active management of the third stage of labour on postpartum haemorrhage: multicentre randomised controlled trial (TRACOR). BMJ 2013;346:f1541.

[2] Sedgwick P. Standard deviation versus standard error. BMJ 2011;343:d8010.

[3] Sedgwick P. Confidence intervals and statistical significance: rules of thumb. BMJ 2012;345:e4960.

 

#BMJ

#醫學統計

#Standarderror

#匯東華

#95%信賴區間

 

沒有留言:

張貼留言

JAMA Internal Medicine:醫師 vs. ChatGPT對社交媒體上病人問題的回覆,誰更好?

JAMA Internal Medicine :醫師 vs. ChatGPT 對社交媒體上病人問題的回覆,誰更好?   全文連結: https://reurl.cc/Ovk14D 重點:   問題: ChatGPT是否能提供與醫生的回覆同等的品質和同理心?   ...