2021年10月15日 星期五

BMJ統計問題(7):什麼是P值?(Understanding P values)

 BMJ統計問題(7):什麼是P值?(Understanding P values)

 

匯東華的小小統計問題 :D

每周末出刊


前言:

British Medical Journal,英國醫學期刊(British Medical Journal,簡稱 BMJ),是一份同行評審性質的綜合醫學期刊,創始於1840年,是最古老的醫學期刊之一。2020年的IF=39.890,在醫學研究領域享有盛名。

 

BMJ20089月開始至2015年由兩位流行病與統計學專家持續出了300多期Statistical question系列。此Endgames系列持續都還會有更新版本。不只包括統計概念,還包括流行病學研究法的題目,二位專家學者不只精心設計題目還進行十分詳盡地說明,非常值得醫學領域人員細細品閱。匯東華的BMJ統計小小問題將精選Statistical Question,採用中英對照,有興趣的朋友們可進行回答。

 

P值是統計推論的基礎,基礎謂基石也,談幾次都不嫌多,再來了解P value在研究上的解讀吧!內容很長,將原題目附於中文說明之後,詳細原文說明請看最後的文獻連結。

本期推薦度:★★★★★

題目:

研究人員研究對高風險族群而言,懷孕期間採取低升糖指數飲食是否會降低巨大嬰兒發生率(大於胎齡)。一個隨機對照試驗使用800位沒有糖尿病第二次懷孕的女性,且之前曾分娩過體重超過 4000 g的嬰兒作為研究對象。

干預措施包括在懷孕早期食用低升糖指數飲食。對照組則沒有飲食介入。主要結果是出生體重1

兩組使用獨立樣本t檢定比較平均出生體重是否有差異,採用雙尾檢定,顯著水準設為0.05 (5%)。干預組的平均出生體重大於對照組,雖然差異不顯著(4034 g (標準差 510) v 4006 (497);平均差異為28.6 g95% 信賴區間 -45.6 102.8 P=0.449)。研究人員得出結論,懷孕期間低升糖指數飲食不會減少巨大嬰兒發生風險。

 

Question:請問下列哪些陳述何者正確的? (單選)

a) 基於顯著水準的統計假設檢定是一個兩分法檢定

b) P 值提供了關於治療組別間平均出生體重的差異方向之直接陳述

c) P 值是對立假設為真的機率

 

 

 

Answer:

正確答案為 a)

 

詳細說明:

該試驗的目的是研究懷孕期間低升糖指數飲食的影響使用傳統的假設檢定方式比較治療組別間的新生兒平均出生體重是否有差異。兩組母群體平均體重參數的樣本估計值是28.6 g。假設檢定的目的為建立在本試驗的平均出生體重差異是否也存在母群體中。統計假設檢定包括虛無假設(null hypothesis)與對立假設 alternative hypotheses)的陳述。對立假設為兩組存在差異。本題沒有指定差異的方向性,因為對立假設是雙尾,換句話說,低升糖指數飲食組的平均體重可以大於或是小於對照組。本目的是確定樣本資料是否支持虛無假設或提供組別間是有差異的證據來指向對立假設。

 

本研究的P=0.449,為一由樣本資料所得出的機率值。在本範例中,為使用獨立樣本t檢定所得。P值表示支持虛無假設的證據強度。較大的P值表示樣本資料支持虛無假設,而較小的P值表示不支持。大P值和小P值之間的切點通常設為0.05,又被稱為顯著水準(significant level。若P值大於或等於0.05,則表示樣本提供的證據不足以拒絕虛無假設,反之,P值小於0.055%)則意味著有足夠的證據拒絕虛無假設,轉而支持對立假設

因此,基於臨界顯著水準的統計假設檢定是一個二分法的檢定,所以a答案為真。建議總是使用P值來報告統計假設考驗的結果,而不是不顯著(not significant, NS)” 顯著 (significant, S)”,因為它提供支持虛無假設的證據強度一連續性度量

 

出生體重統計檢驗的P值為P=0.449 P 值代表理論上無限數量的樣本有0.449 (49.9%))比例之出生體重平均差異等於或大於上述試驗中觀察到的樣本。更正式地說,P 值是假設當母群體中治療組間的平均出生體重沒有差異(虛無假設)的情況下,所實際觀察到的兩組間平均出生體重差異及更大差異的概率,無論方向為何。出生體重主要結果統計檢驗的P值為0.449,大於臨界顯著水準(0.05)。 因此,沒有證據可以拒絕虛無假設而支持對立假設。沒有證據顯示介入組和對照組在母群體中的平均體重會有差異。

P值也不能提供任何組間差異量的方向性陳述。此外,P值沒有提供任何組別間差異方向的指示,即干預組的平均出生體重是否高於或低於對照組(b錯誤)。因此需要呈現組別間出生體重平均差異的95%信賴區間,因為它能夠說明組別間的差異大小和方向

 

可能是因為P值是一個抽象的概念,所以似乎不易理解。儘管P值的推導是基於重複從母群體中無限次抽樣所得的理論性概念,但在實務上,我們獲得的是單一樣本。

P值經常被誤解,例如,通常認為P值是虛無假設或對立假設是真或假的機率。如前所述,P值表示樣本數據是支持虛無假設或支持對立假設。這種區別是重要的,因為理論上很難證明一個假設為真或為假。虛無或對立假設在一母群體中也許為真。但是,證明或反駁統計假設的唯一方法是對整個母群體進行抽樣,而這是不可行的。

研究樣本是從母群體理論上重複抽取無限次的樣本之一,因此容易出現抽樣誤差。小樣本在進行假設檢定時更有可能導致型I與型II錯誤。臨床試驗有時會招募過多的參與者致使過度敏感(overpowered)。在此情況下,可能會發現治療組別間在臨床上沒意義的差異結果卻有統計意義存在。因此,從單一樣本的統計假設結果來推論虛無假設或對立假設為真或假時,可能會導致錯誤的結論

 

原文題目:

Researchers investigated whether a low glycaemic index diet in pregnancy reduced the incidence of macrosomic (large for gestational age) infants in an at risk group. A randomized controlled trial study design was used. Participants were 800 women without diabetes, all in their second pregnancy, who had previously delivered an infant weighing more than 4000 g. The intervention consisted of a low glycaemic index diet from early pregnancy. The control treatment was no dietary intervention. The primary outcome was birth weight.1 Treatment groups were compared in mean birth weight using the independent samples t test. Hypothesis testing was two tailed, with a critical level of significance of 0.05 (5%). The mean birth weight in the intervention group was greater than in the control group, although the difference was not significant (4034 g (standard deviation 510) v4006 (497); mean difference 28.6 g; 95% confidence interval 45.6 to 102.8; P=0.449). The researchers concluded that a low glycaemic index diet in pregnancy did not reduce the incidence of large for gestational age infants in a group at risk of fetal macrosomia.

 

Which of the following statements, if any, are true?

a) Statistical hypothesis testing based on a critical level of significance is a dichotomous test

b) The P value provides a direct statement about the direction of a difference between treatment groups in mean birth weight

c) The P value is the probability that the alternative hypothesis was true

 

 

Answer:

Statements a is true, whereas b and c are false.

 

Reference: BMJ2014;349:g4550

https://www.bmj.com/content/349/bmj.g4550

 

 

 

 

沒有留言:

張貼留言

JAMA Internal Medicine:醫師 vs. ChatGPT對社交媒體上病人問題的回覆,誰更好?

JAMA Internal Medicine :醫師 vs. ChatGPT 對社交媒體上病人問題的回覆,誰更好?   全文連結: https://reurl.cc/Ovk14D 重點:   問題: ChatGPT是否能提供與醫生的回覆同等的品質和同理心?   ...