BMJ小小統計問題(14):Cox比例風險迴歸
(Cox proportional hazards regression)
匯東華的小小統計問題 :D
每周末出刊。
存活分析相關文章系列:
☑BMJ統計問題(12):風險比的解釋 (Interpreting hazard ratios)
☑BMJ統計問題(13):Kaplan-Meier
survival curves:風險解釋和溝通
前言:
這幾周是存活分析周,針對存活分析相關概念進行介紹與說明。這二週講到
統計問題(12):hazard ratio 和統計問題(13)Kaplan-Meier survival curves的解釋以及在臨床實務上的應用,這周就來學習存活分析中耳熟能詳的Cox regression。很多人實際分析過,卻不一定真懂它。本文解釋Cox proportional hazards regression之proportional意義,此為使用Cox regression前提假設,並提出瞬時死亡率概念與風險比的說解釋,最後還附贈交互作用,淺嘗即止,就一起來看看吧 😊
BMJ自2008年9月開始至2015年由兩位流行病與統計學專家持續出了300多期Statistical question系列。此Endgames系列持續都還會有更新版本。不只包括統計概念,還包括流行病學研究法的題目,二位專家學者不只精心設計題目(通常是實際發表的研究案例)還進行十分詳盡地說明,非常值得醫學領域人員細細品閱。匯東華的BMJ統計小小問題將精選Statistical Question,採用中英對照,有興趣的朋友們可進行回答。將原文題目附於中文說明之後,詳細原文說明請看最後的文獻連結。
題目:
研究人員測量常規初段照護中次級藥物預防對中風病人一年死亡率的影響。他們採用世代研究設計,其中包括來自健康改善網路初段照護資料庫的病人資料。參與者是來自113個一般診所的12830名年齡在50歲或以上的病人。他們都在1995年至2005年間中風,並在中風後的30天內存活下來。次級藥物預防被定義為使用降血壓藥物+降血脂藥物+抗血栓藥物或使用降血壓藥物+降血脂藥物[1]。
Cox比例風險迴歸用於探討一年內的死亡率,定義為中風後31天到一年內任何原因導致的死亡。進行了一年死亡率和二級藥物預防、性別、社會經濟剝奪和年齡組的單變數和多變數分析(下表)。社會經濟剝奪通過Townsend score來衡量,該評分評估家庭的社會經濟剝奪狀況,包括就業狀況、過度擁擠、汽車擁有率和車主職業狀況。
接受次級藥物預防的病人第一年的平均死亡率為5.7%,而未接受治療的病人第一年的死亡率為11.1%。次級藥物預防與死亡率降低50%有關(調整風險比0.50, 95%信賴區間0.42 - 0.59)。
下列敘述何者正確? (複選)
a) Cox比例風險迴歸的結局變數是連續性的
b)風險比 (hazard ratio) 預測追蹤結束時各變數類別中死亡病人的相對比例 (relative proportions)
c)假設每一類解釋變數的死亡危險在追蹤期間是恆定的
d)可以得出結論,次級藥物預防與一年死亡率具有獨立相關
答案:a、d正確;b、c錯誤
詳細說明:
該研究的目的是調查在常規初級照護中對腦中風病人進行次級藥物預防是否影響一年死亡率,即腦中風後31天到第一年的所有原因死亡率。使用Cox比例風險迴歸模型,其與之前所描述的迴歸分析方法相似[2-4]。該方法同時調查一個依變數和一個或多個預測變數之間的關聯。結局變數是“時間到事件資料” (time to event) 或“存活資料” (survival data)。存活資料已在前面描述,包括每個病人到達終點所需的時間。
在上面的例子中,結果是從中風後31天到因任何原因死亡的時間長度。追蹤時間為一年。結局是連續性的 (a正確),在這方面Cox比例風險迴歸與簡單線性迴歸和多元迴歸分析相似。然而,存活資料的顯著特徵是,通常一些參與者在追蹤結束前沒有經歷終點。
在上面的例子中,並不是所有的參與者都會在中風後一年內死亡。這些病人的存活時間必定是右設限資料(right censored)[5]。如果病人在中風一年內死亡,他或她的存活時間將被準確地描述。
Cox比例風險迴歸模型中的預測變數,有時被稱為解釋變數,可以是連續性變數、二分類變數或分類變數的任意組合。在上述例子中,解釋變數均為分類變數或二分類變數,其包括次級藥物預防、性別、社會經濟剝奪指數和年齡組。前提假設為所有觀察資料是相互獨立的,亦即,每個參與者在依變數和解釋變數都只有一筆觀察資料。
Cox比例風險迴歸的結果以風險比(hazard ratio, HR)的形式呈現。風險比,有時稱為相對風險,已在前面的問題中說明[6]。當Cox比例風險迴歸探討一個依變數和一個預測變數之間的關聯時,它被稱為單變數(univariable)。當有兩個或多個預測變數時,稱為多變數(multivariable)。
在“單變數模型”一欄中顯示的風險比是未經調整的,亦即沒有對其他解釋變數進行調整。它們是一系列迴歸模型的結果,探討個別危險因素對一年死亡率的風險。在“多變數模型”一欄中顯示的風險比是由單一Cox比例風險迴歸模型產生的,其中每個危險因素均視其他因素為干擾進行調整——也就是說,當所有其他解釋變數保持不變時,特定因素的實際影響。
對於每個解釋變數,無論是在單變數分析還是多變數分析中,風險比都有一個參考類別,如風險比列中的數字1所示。有時參考類別用(1)代替。將變數的其他類別與參考類別進行比較,得出風險比。某一特定類別的風險比是該類別在追蹤期間的死亡風險除以參考類別中的死亡風險。死亡風險是在一個時間間隔內死亡的機率除以時間間隔的長度,因此它代表死亡率。
研究期間被劃分為非常短的時間間隔,因此死亡風險代表追蹤時任何時間點的瞬時死亡率。因此,風險比代表追蹤期間死亡的相對瞬時危險性(risk)。例如,次級藥物預防相對於不預防的調整風險比為0.50。因此,在追蹤期間的任何時候,接受次級藥物預防病人的死亡危險性是未接受藥物預防病人的一半。風險比(HR)0.5不能預測追蹤結束時次級藥物預防類別中死亡病人的相對比例 (relative proportions)(b錯誤),但可以預測追蹤期間死亡的相對瞬時危險性。
在研究期間,任何類別的風險或死亡率都可能不是恆定的(c錯誤)。然而,在推導風險比時,我們假設兩類病人的死亡率之比是恆定的,也就是說,它們在追蹤過程中是成比例的(proportional)。比例風險的假設是在Cox比例風險迴歸模型中包含任何變數的基礎。
對於每個風險比給出了母群體風險比的95%信賴區間,為母群體參數提供了一個區間估計。如同之前所言,若母群體風險比的95%信賴區間排除1,那麼解釋變數的類別之間風險無差異的虛無假設將被拒絕,而在5%的水準下支持對立假設 [7]。假如一個解釋變數和結果之間的關係在調整干擾因素後是顯著的,那麼解釋變數被稱為與結果具有獨立相關。在調整其他解釋變數後,次級藥物預防與一年死亡率呈現統計上顯著相關,也就是說,母群體的風險比之95%信賴區間不包括1(HR 0.50, 0.42 - 0.59)。因此,次級藥物預防被認為與一年死亡率具有獨立相關(d正確)。
將調整前後的風險比並列呈現是很好的做法,因為它允許讀者確定干擾的影響。在上面的例子中,受到干擾影響最大的似乎是性別,調整逆轉了與一年死亡率相關性的方向。在調整前,與男性相比,女性在追蹤期間的風險較大(HR=1.22),而調整後她們的風險降低(HR=0.86)。在5%的水準下,兩種風險比均具有統計學意義。此外,在進行干擾校正後,社會經濟剝奪第2組的風險比由顯著變得不顯著,而對社會經濟剝奪第五組則相反。因此,在解釋變數的這些類別和一年死亡率的關係中有干擾作用存在。然而,調整前後的風險比差異很小,表明干擾程度很小。
作者還檢驗次級藥物預防和其他解釋變數之間是否存在交互作用(interaction),以探討不同危險因素類別間的潛在差異治療與一年死亡率間的關係。他們發現,沒有證據表明次級藥物預防與死亡率之間的關係在性別或年齡組別之間存在差異。有些證據表明Townsend score的第五組有修飾效果。然而,社會經濟剝奪指數之間並無呈現任何趨勢。
Reference:
[1] Raine R, Wong W, Ambler G, Hardoon S, Petersen I, Morris R, et al. Sociodemographic variations in the contribution of secondary drug prevention to stroke survival at middle and older ages: cohort study. BMJ 2009;338:b1279.
[2] Sedgwick P. Simple linear regression. BMJ 2013;346:f2340.
[3] Sedgwick P. Multiple regression. BMJ 2013;347:f4373.
[4] Sedgwick P. Logistic regression. BMJ 2013;347:f4488.
[5] Sedgwick P. Kaplan-Meier survival analysis: types of censored observations. BMJ
2013;347:f4663
[6] Sedgwick P. Hazards and hazard ratios. BMJ 2012;345:e5980.
[7] Sedgwick P. Confidence intervals and statistical significance: rules of thumb. BMJ
2012;345:e4960.
原文題目:
Researchers measured the effect on one year mortality of secondary drug prevention for patients with stroke in routine primary care. They used a cohort study design, which incorporated patient data from the health improvement network primary care database. Participants were 12 830 patients aged 50 years or more from 113 general practices. They had all had a stroke between 1995 and 2005 and survived the first 30 days after the stroke. Secondary drug prevention was defined as being prescribed either antihypertensives plus lipid lowering drugs plus ntithrombotics or antihypertensives plus lipid lowering drugs.1
Cox proportional hazards regression was used to investigate one year mortality, defined as death from any cause from 31 days after the stroke and within the first year. Univariable and multivariable analyses between one year mortality and secondary drug prevention, sex, socioeconomic deprivation, and age group were performed (table⇓). Socioeconomic deprivation was measured by the Townsend score, which assesses socioeconomic deprivation in families and includes measurement of employment status, overcrowding, car ownership, and owner occupation status.
On average, mortality within the first year was 5.7% for patients receiving secondary drug prevention compared with 11.1% for patients not receiving treatment. Secondary drug prevention
was associated with a 50% reduction in mortality risk (adjusted hazard ratio 0.50, 95% confidence interval 0.42 to 0.59).
Which of the following statements, if any, are true?
a) The outcome variable for the Cox proportional hazards regression was continuous
b) The hazard ratio predicts the relative proportions of patients who will have died in the categories of each variable at the end of follow-up
c) It was assumed that for each category of the explanatory variables the hazard of death was constant during follow-up
d) It can be concluded that secondary drug prevention was independently associated with one year mortality
Answers
Statements a and d are true, whereas b and c are false.
Cite this as: BMJ 2013;347:f4919
https://www.bmj.com/content/347/bmj.f4919
沒有留言:
張貼留言