2023年2月15日 星期三

BMJ小小統計問題(78):Sample size: how many participants are needed in a trial?

 BMJ小小統計問題(78):

 Sample size: how many participants are needed in a trial?

 (樣本量:試驗需要多少參加者?)

 


Cite this as: BMJ 2013;346:f1041

https://www.bmj.com/content/346/bmj.f1041

前言

統合分析相關主題已經談完,開始回到常用統計的主題。本周主題為計算試驗所需的樣本數。本例為採用優勢試驗 (superiority trial),及組間平均值差異在臨床感興趣最小效果之上,此為第一項學習重點;第二項學習重點在於樣本數計算需考慮的指標;第三項學習重點在於檢定力(POWER)的解釋,本篇內容解釋得很清楚;第四項重點在對於結果的推論。很容易就踩坑,需要特別注意。Hope u enjoy it 😊

 

問題

研究人員調查基於家庭的早期介入對2歲兒童身體質量指數(BMI)之效果。採用隨機對照優勢試驗 (superiority trial)。介入措施在出生後24個月內,除了社區衛生護士之常規性兒童照護服務外,還包括8次家訪。對照組僅接受常規的兒童護理服務。參與者都是初為人母的母親和她們的嬰兒。主要結果是兒童在2歲時的BMI [1]

 

樣本數計算基於2歲時治療組間平均BMI差異為0.25單位,採雙尾檢定,顯著水準設為0.05,檢定力為80%。假設各組觀察值的標準差相同,均為1.5 BMI單位。總樣本數為504名參與者(每治療組252)。考慮約20%的退出率,需要招募630名初為人母之參加者。總共667位母親及她們的嬰兒被招募到本項試驗。

 

2歲時,介入組之平均BMI顯著低於對照組(16.53 v 16.82;差異值0.2995%信賴區間 −0.55 −0.02P = 0.04)。研究人員得出結論,由訓練有素的社區護士提供的基於家庭的早期介入對降低2歲兒童的平均BMI是有效的。

 

下列敘述何者正確?(複選)

 

a)治療間的平均BMI差異為0.25是臨床感興趣的最小效果

 

b)如果檢定力提升至90%,所需的樣本數將增加

 

c) I錯誤(type I error)固定為5%,用於主要結局的統計檢定

 

d)增加樣本數會降低型I錯誤(type I error)

 

e)可以得出結論,在母群體中,組別間的平均BMI至少存在0.25的差異

 

 

 

答案

a,b,c,d正確,e錯誤

 

 

詳細說明

這項優勢試驗 (superiority trial)目的在於確定基於家庭的早期介入效果是否優於對照治療,或反之。優勢試驗已經說明過[2]。雖然預測,與對照治療相比,基於家庭的早期介入能夠降低2歲時的平均BMI,但有時結果會出乎意料,重要的是,統計假設檢定允許對照治療較佳的可能性。因此,在BMI的結局測量中,採用傳統的統計學假設檢定中的雙尾檢定來比較治療組[3]。若治療組間的平均BMI差異至少為0.25個單位,則其中一種治療被認為比另一種治療更有效。這種差異被稱為臨床感興趣之最小效果(a正確),代表了一種治療在臨床上被認為比另一種治療更有效所需的平均BMI的最小差異。更大的差異顯然也表明優勢——亦即,治療組間存在顯著差異。然而,若組間差異較小,則計算的樣本數無法證明處理組間的顯著差異。最小的臨床效果由研究人員根據臨床經驗或以往的研究提出的。

 

試驗中觀察到的治療組間BMI的差異估計母群體效果,換句話說,若將結果應用於初為人母個案及嬰兒的母群體中,治療組間將會看到的差異。最小臨床效量可能在母群體中不存在,但若存在,需要最大化它在試驗中被偵測到的機率。為了使這一機率最大化,需要一個最佳樣本數。為了計算樣本數,除了指定臨床感興趣的最小效果外,研究人員還需要指定所需的檢定力和臨界顯著性水準;他們還需要提供每個治療組BMI預期標準差。基於以前的研究,BMI的標準差假設在每組中相等。

 

為了確定觀察到的平均BMI差異是否顯著,進行統計假設檢定並推導出P值。假設檢定是基於無限次抽樣的假設情況。對於上面的例子,在相同條件下,無限個樣本中的每一個有相同大小的樣本數。檢定力即為在母群體存在臨床感興趣最小效果的情況下,在這些重複樣本被偵測出來之百分比(在本例中設為80%)

 

在計算樣本數時,通常建議將檢定力設置為80%以上。檢定力通常固定在80%90%。在樣本數計算中,增加檢定力會增加所需的樣本數(b正確)。因為隨著樣本數的增加並接近母群體數,試驗中觀察到的BMI差異將與母群體中相近。因此,隨著樣本數的增加,檢定力也會增加,因為若臨床感興趣的最小效果存在於母群體中,則它更有可能在試驗中被看到。

 

為了比較介入組和對照組,提出具有0.05臨界顯著性水準的雙尾假設檢定。在統計假設檢定中,顯著性的臨界水準通常設為0.05。顯然,在試驗開始前,不知道母群體中治療間的平均BMI是否存在差異。若不存在差異,則重要的是將犯I錯誤(type I error)的機率降至最低。如果在母群體中治療之間的平均BMI沒有差異的情況下,拒絕虛無假設而選擇對力假設,將會出現I錯誤。提前設置臨界顯著性水準確保發生型I錯誤最大機率為0.05 (5%)(c正確)

 

如上所述,假設檢定是基於無限次抽樣的假設情況。由於臨界顯著性水準被設為0.05,因此對於這無限數量樣本中的5%,虛無假設將被拒絕,而選擇對立假設。因此,對於任何假設檢定,拒絕虛無假設的最大機率為0.05。因為任何假設檢定都可能導致型I錯誤,I型錯誤的最大機率為0.05 (c正確)。型I錯誤的機率受樣本數影響。隨著樣本數的增加並接近母群體數,試驗中平均BMI的差異將與母群體中相似,從而降低了發生型I錯誤的可能性(d正確)

 

雖然研究發現兩種治療方法在2歲時的平均BMI有顯著差異,但不能得出結論,在母群體中,不同治療方法間肯定存在至少0.25單位的平均BMI差異(臨床感興趣的最小效果)(e錯誤)。試驗提供足夠的證據來拒絕虛無假設,支援對立假設,結論是不同治療之間存在差異。然而,這個結果有可能是型I錯誤,儘管如上所述,這種機率最多為0.05(5%)

 

研究人員必須計算最佳樣本數。若樣本數太小,可能無法代表整個母群體,會導致試驗缺乏說服力。太大的樣本可能耗時、昂貴,且是不道德的。所需要的樣本數調整為估計20%的退出率。參與者因各種原因離開試驗並不罕見,因此必須調整樣本數以考慮到這一點。退出的程度可從以前的試驗中估計出來。

 

Reference

[1] Wen LM, Baur LA, Simpson JM, Rissel C, Wardle K, Flood VM. Effectiveness of home

based early intervention on children’s BMI at age 2: randomised controlled trial. BMJ

2012;344:e3732.

[2] Sedgwick P. Superiority trials. BMJ 2011;342:d2981.

[3] Sedgwick P. Statistical hypothesis testing. BMJ 2010;340:c2059.

 

👉課程報名

 

#BMJ

#醫學統計

#Sample size

#Superiority trial

 

沒有留言:

張貼留言

JAMA Internal Medicine:醫師 vs. ChatGPT對社交媒體上病人問題的回覆,誰更好?

JAMA Internal Medicine :醫師 vs. ChatGPT 對社交媒體上病人問題的回覆,誰更好?   全文連結: https://reurl.cc/Ovk14D 重點:   問題: ChatGPT是否能提供與醫生的回覆同等的品質和同理心?   ...