2021年10月31日 星期日

BMJ統計問題(12):風險比的解釋 (Interpreting hazard ratios)

BMJ統計問題(12):風險比的解釋 (Interpreting hazard ratios)

 

匯東華的小小統計問題 :D

每周末出刊。這幾天忙著上課跟演講,晚了一些。

 

上週講到95%信賴區間,談到風險比 (HR),這周就來學習它的解釋。存活分析 Cox proportional hazard model 是目前臨床研究領域很常使用的分析方法,關於風險比 (HR)已經被詢問數次如何解釋。另外,本文最後提到應對病人提供有用的資訊,這種風險機率指標可能助益不大,應提供額外的總體存活資訊,很好的提醒,就一起來看看吧 😊

BMJ20089月開始至2015年由兩位流行病與統計學專家持續出了300多期Statistical question系列。此Endgames系列持續都還會有更新版本。不只包括統計概念,還包括流行病學研究法的題目,二位專家學者不只精心設計題目(通常是實際發表的研究案例)還進行十分詳盡地說明,非常值得醫學領域人員細細品閱。匯東華的BMJ統計小小問題將精選Statistical Question,採用中英對照,有興趣的朋友們可進行回答。將原文題目附於中文說明之後,詳細原文說明請看最後的文獻連結。

👉題目:

採用雙盲安慰劑對照試驗研究了isoniazid prophylaxis預防愛滋病童死亡率和結核病的影響。介入組是isoniazid或複方每天或每週三次。對照治療為安慰劑。地點是南非的兩個三級照護中心。參與者是年齡在8()以上的愛滋病毒兒童。總共277名兒童被招募並隨機分為干預組(n=139)和對照組(n=138)

主要結果包括隨機分組後至全死因死亡的時間長度和至結核病發生的時間長度。追蹤期間,isoniazid組的死亡率明顯低於安慰劑組(8% (n=11) v16% (n=21);HR=0.46, 95%信賴區間 0.22 ~ 0.95)。此外,isoniazid組的結核病風險也顯著降低(4% (n=5) vs 10% (n=13);0.28, 0.10~0.78)

研究人員得出結論,對於感染愛滋病毒的兒童,isoniazid預防有早期生存益處,並降低了罹患結核病的風險。

 

下列敘述何者正確? (單選)

a)在計算死亡危險比時,假設兩組追蹤期間內死亡率不變

b)在追蹤期間,介入組的死亡率比對照組低54%

c)死亡風險比是介入組死亡人數與對照組死亡人數之比

d)死亡風險比提供了生存時間的估計

 

 

 

答案

b正確,而a, c, d錯誤。

 

詳細說明:

試驗的目的是確定isoniazid prophylaxis對預防感染愛滋病毒的兒童之死亡率和罹患結核病的影響。結果測量包括隨機分組後到死亡的時間長度,這些時間被稱為“事件發生時間”(time-to event) 或“存活時間" (survival time),在前面問題[2]中有說明用於分析此類資料的方法被稱為Kaplan-Meier存活分析,該方法最初用於分析終點為死亡的資料,因此時間被稱為“存活資料” (survival data)

在上述試驗中,如果追蹤期間發生死亡,則生存時間被稱為“確切” (exact),如果隨訪結束時兒童仍活著,則存活時間被“設限”(censored)。所有的存活時間,無論是精確的還是設限的,都被用來比較治療組別間在隨機分組後到死亡的時間長度。組別間的存活時間Kaplan-Meier生存曲線(下圖)顯示,解釋已在前面說明[3]


風險比 (Hazard ratioHR),有時稱為相對風險 (relative hazard),通常用於比較兩個治療組別間的時間和事件資料。干預組與對照組的死亡HR=0.46 (0.22 ~ 0.95)HR是在整個研究期間干預組的死亡風險與安慰劑組的死亡風險之比。

為了得出特定組別的死亡風險,研究期間在概念上被劃分為非常短的時間間隔。每一時間間隔所得到的死亡風險,等於該時間間隔內的死亡機率除以該時間間隔的長度。因此,對於每個時間間隔,死亡風險代表該時間間隔內的死亡率或死亡風險。在推導風險比時,任一治療組的風險率(死亡率)在整個追蹤過程中可能不是恆定的(a錯誤)。然而,假設死亡率的比在整個研究期間是恆定的,且在每個時間間隔內是相同的。因此,HR表示在研究的任何時間內,isoniazid prophylaxis預防組與安慰劑組的死亡風險的危險比

干預組與對照組的死亡風險比為0.46 (0.22 ~ 0.95)小於1.0。因此,isoniazid prophylaxis預防組的死亡風險低於對照組。在追蹤期間的任何時候,干預組的死亡機率是對照組的0.46倍,風險降低了54% (b正確)因為HR95%信賴區間不包括1.0[4] 亦即HR1.0有顯著不同。特別是,相關95%信賴區間的界限小於1.0,因此預防組的死亡風險明顯低於對照組。

在整個研究期間,HR比較了兩治療組之間的死亡風險。它沒有提供追蹤時治療組之間的死亡人數的任何指標 (c錯誤)。HR也不能說明兒童在隨機分組後的存活時間長度指標 (d錯誤)。因此,提供一些總體存活率的指標可能是有用的。在追蹤結束時 (500),預防組的累積生存機率約為0.87,安慰劑組的累積生存機率約為0.76,反映了干預組的死亡率降低。中位數存活時間(median overall survival)是一個有用的平均存活指標,為在追蹤期間超過0.5存活機率的時間長度。在上述試驗中,無法估計兩組的中位數存活時間,因為累積生存機率未達到0.5或更低 ()

 

(補充說明:關於中位數存活時間,如為11.5個月,代表約有一半的病人存活超過11.5個月。或是存活時間的中位數為11.5個月,表示在確診11.5個月後,仍有一半(50%)的病人活著。)

理解風險比有助於臨床醫師解釋科學文獻中報告的研究結果,並可能為決定向病人推薦什麼治療方法提供資訊。然而,顯而易見的,諸如風險比之類的統計概念對病人可能不太有意義。為了讓病人在充分知情的情況下作出決定,臨床醫師需要清楚而全面地解釋治療的風險和益處,而非用過於複雜的統計術語來混淆他們的解釋。

單獨的風險比沒有提供在追蹤期間組別間的相對死亡人數或潛在存活時間的指標。因此,需要考慮一些關於總體存活率的額外資訊。這可能包括追蹤結束時的累積存活率或中位數存活時間(如有)。如前面的問題所述[2, 5]使用機率可能沒有幫助,當說明治療的優點時,應考慮自然頻率 (natural frequencies)

參考文獻:

[1] Zar HJ, Cotton MF, Strauss S, et al. Effect of isoniazid prophylaxis on mortality and incidence of tuberculosis in children with HIV: randomised controlled trial. BMJ 2007;334:136.

[2] Sedgwick P, Joekes K. Kaplan-Meier survival curves: interpretation and communication of risk. BMJ 2013;347:f7118.

[3] Sedgwick P. How to read a Kaplan-Meier survival plot. BMJ 2014;349:g5608.

[4] Sedgwick P. Confidence intervals and statistical significance: rules of thumb. BMJ

2012;345:e4960.

[5] Sedgwick P, Joekes K. Survival (time to event) data: median survival times. BMJ

2011;343:d4890.

 

原文題目:

The impact of isoniazid prophylaxis on mortality and tuberculosis in children with HIV was investigated using a double blind placebo controlled trial. The intervention was isoniazid given with co-trimoxazole either daily or three times a week. Control treatment was placebo isoniazid given with co-trimoxazole. The setting was two tertiary healthcare centres in South Africa. Participants were children with HIV aged 8 weeks and older. In total, 277 children were recruited and randomised to the intervention (n=139) or control treatment (n=138).[1] The primary outcomes included the length of time after randomisation until death from any cause and the length of time after randomisation until the occurrence of tuberculosis. The initial results of the trial were reported after participants had been followed for a maximum of 500 days (median 5.7 months) During follow-up, mortality was significantly lower in the isoniazid group than in the placebo group (8% (n=11) v16% (n=21); hazard ratio 0.46, 95% confidence interval 0.22 to 0.95). Furthermore, the risk of tuberculosis was also significantly reduced in the isoniazid group (4% (n=5) v10% (n=13); 0.28, 0.10 to 0.78). The researchers concluded that for children with HIV, isoniazid prophylaxis has an early survival benefit and reduces the risk of tuberculosis.

 

Which of the following statements, if any, are true?

a) When calculating the hazard ratio of death, it was assumed that the death rate was constant during follow-up for each treatment group

b) The intervention group had a 54% lower risk of mortality than the control group at any time during follow-up

c) The hazard ratio of death is the ratio of the number of deaths in the intervention group to the number in the control

group at follow-up

d) The hazard ratio of death provides an estimate of the length of survival

 

 

Answers

Statement bis true, whereas a, c, and dare false.

 

BMJ 2015;351:h4631

https://www.bmj.com/content/351/bmj.h4631

 

2021年10月15日 星期五

BMJ統計問題(7):什麼是P值?(Understanding P values)

 BMJ統計問題(7):什麼是P值?(Understanding P values)

 

匯東華的小小統計問題 :D

每周末出刊


前言:

British Medical Journal,英國醫學期刊(British Medical Journal,簡稱 BMJ),是一份同行評審性質的綜合醫學期刊,創始於1840年,是最古老的醫學期刊之一。2020年的IF=39.890,在醫學研究領域享有盛名。

 

BMJ20089月開始至2015年由兩位流行病與統計學專家持續出了300多期Statistical question系列。此Endgames系列持續都還會有更新版本。不只包括統計概念,還包括流行病學研究法的題目,二位專家學者不只精心設計題目還進行十分詳盡地說明,非常值得醫學領域人員細細品閱。匯東華的BMJ統計小小問題將精選Statistical Question,採用中英對照,有興趣的朋友們可進行回答。

 

P值是統計推論的基礎,基礎謂基石也,談幾次都不嫌多,再來了解P value在研究上的解讀吧!內容很長,將原題目附於中文說明之後,詳細原文說明請看最後的文獻連結。

本期推薦度:★★★★★

題目:

研究人員研究對高風險族群而言,懷孕期間採取低升糖指數飲食是否會降低巨大嬰兒發生率(大於胎齡)。一個隨機對照試驗使用800位沒有糖尿病第二次懷孕的女性,且之前曾分娩過體重超過 4000 g的嬰兒作為研究對象。

干預措施包括在懷孕早期食用低升糖指數飲食。對照組則沒有飲食介入。主要結果是出生體重1

兩組使用獨立樣本t檢定比較平均出生體重是否有差異,採用雙尾檢定,顯著水準設為0.05 (5%)。干預組的平均出生體重大於對照組,雖然差異不顯著(4034 g (標準差 510) v 4006 (497);平均差異為28.6 g95% 信賴區間 -45.6 102.8 P=0.449)。研究人員得出結論,懷孕期間低升糖指數飲食不會減少巨大嬰兒發生風險。

 

Question:請問下列哪些陳述何者正確的? (單選)

a) 基於顯著水準的統計假設檢定是一個兩分法檢定

b) P 值提供了關於治療組別間平均出生體重的差異方向之直接陳述

c) P 值是對立假設為真的機率

 

 

 

Answer:

正確答案為 a)

 

詳細說明:

該試驗的目的是研究懷孕期間低升糖指數飲食的影響使用傳統的假設檢定方式比較治療組別間的新生兒平均出生體重是否有差異。兩組母群體平均體重參數的樣本估計值是28.6 g。假設檢定的目的為建立在本試驗的平均出生體重差異是否也存在母群體中。統計假設檢定包括虛無假設(null hypothesis)與對立假設 alternative hypotheses)的陳述。對立假設為兩組存在差異。本題沒有指定差異的方向性,因為對立假設是雙尾,換句話說,低升糖指數飲食組的平均體重可以大於或是小於對照組。本目的是確定樣本資料是否支持虛無假設或提供組別間是有差異的證據來指向對立假設。

 

本研究的P=0.449,為一由樣本資料所得出的機率值。在本範例中,為使用獨立樣本t檢定所得。P值表示支持虛無假設的證據強度。較大的P值表示樣本資料支持虛無假設,而較小的P值表示不支持。大P值和小P值之間的切點通常設為0.05,又被稱為顯著水準(significant level。若P值大於或等於0.05,則表示樣本提供的證據不足以拒絕虛無假設,反之,P值小於0.055%)則意味著有足夠的證據拒絕虛無假設,轉而支持對立假設

因此,基於臨界顯著水準的統計假設檢定是一個二分法的檢定,所以a答案為真。建議總是使用P值來報告統計假設考驗的結果,而不是不顯著(not significant, NS)” 顯著 (significant, S)”,因為它提供支持虛無假設的證據強度一連續性度量

 

出生體重統計檢驗的P值為P=0.449 P 值代表理論上無限數量的樣本有0.449 (49.9%))比例之出生體重平均差異等於或大於上述試驗中觀察到的樣本。更正式地說,P 值是假設當母群體中治療組間的平均出生體重沒有差異(虛無假設)的情況下,所實際觀察到的兩組間平均出生體重差異及更大差異的概率,無論方向為何。出生體重主要結果統計檢驗的P值為0.449,大於臨界顯著水準(0.05)。 因此,沒有證據可以拒絕虛無假設而支持對立假設。沒有證據顯示介入組和對照組在母群體中的平均體重會有差異。

P值也不能提供任何組間差異量的方向性陳述。此外,P值沒有提供任何組別間差異方向的指示,即干預組的平均出生體重是否高於或低於對照組(b錯誤)。因此需要呈現組別間出生體重平均差異的95%信賴區間,因為它能夠說明組別間的差異大小和方向

 

可能是因為P值是一個抽象的概念,所以似乎不易理解。儘管P值的推導是基於重複從母群體中無限次抽樣所得的理論性概念,但在實務上,我們獲得的是單一樣本。

P值經常被誤解,例如,通常認為P值是虛無假設或對立假設是真或假的機率。如前所述,P值表示樣本數據是支持虛無假設或支持對立假設。這種區別是重要的,因為理論上很難證明一個假設為真或為假。虛無或對立假設在一母群體中也許為真。但是,證明或反駁統計假設的唯一方法是對整個母群體進行抽樣,而這是不可行的。

研究樣本是從母群體理論上重複抽取無限次的樣本之一,因此容易出現抽樣誤差。小樣本在進行假設檢定時更有可能導致型I與型II錯誤。臨床試驗有時會招募過多的參與者致使過度敏感(overpowered)。在此情況下,可能會發現治療組別間在臨床上沒意義的差異結果卻有統計意義存在。因此,從單一樣本的統計假設結果來推論虛無假設或對立假設為真或假時,可能會導致錯誤的結論

 

原文題目:

Researchers investigated whether a low glycaemic index diet in pregnancy reduced the incidence of macrosomic (large for gestational age) infants in an at risk group. A randomized controlled trial study design was used. Participants were 800 women without diabetes, all in their second pregnancy, who had previously delivered an infant weighing more than 4000 g. The intervention consisted of a low glycaemic index diet from early pregnancy. The control treatment was no dietary intervention. The primary outcome was birth weight.1 Treatment groups were compared in mean birth weight using the independent samples t test. Hypothesis testing was two tailed, with a critical level of significance of 0.05 (5%). The mean birth weight in the intervention group was greater than in the control group, although the difference was not significant (4034 g (standard deviation 510) v4006 (497); mean difference 28.6 g; 95% confidence interval 45.6 to 102.8; P=0.449). The researchers concluded that a low glycaemic index diet in pregnancy did not reduce the incidence of large for gestational age infants in a group at risk of fetal macrosomia.

 

Which of the following statements, if any, are true?

a) Statistical hypothesis testing based on a critical level of significance is a dichotomous test

b) The P value provides a direct statement about the direction of a difference between treatment groups in mean birth weight

c) The P value is the probability that the alternative hypothesis was true

 

 

Answer:

Statements a is true, whereas b and c are false.

 

Reference: BMJ2014;349:g4550

https://www.bmj.com/content/349/bmj.g4550

 

 

 

 

JAMA Internal Medicine:醫師 vs. ChatGPT對社交媒體上病人問題的回覆,誰更好?

JAMA Internal Medicine :醫師 vs. ChatGPT 對社交媒體上病人問題的回覆,誰更好?   全文連結: https://reurl.cc/Ovk14D 重點:   問題: ChatGPT是否能提供與醫生的回覆同等的品質和同理心?   ...