BMJ統計問題(38):複迴歸 (Multiple regression)
匯東華的小小統計問題 :D
每周末出刊。
本期繼續提到線性迴歸,是前面簡單線性迴歸的延伸。自變數在2個以上。
同樣須注意資料是否符合迴歸分析的假設。完整作法在創建迴歸模型前,需檢查資料是否符合假設,創建模型後,還需進行模型診斷,如共線性與unusual and influential data。
一般而言,線性迴歸的自變數須為連續型變數,不過類別變數可以透過轉為虛擬變數的方式來處理,分析結果的解釋可以看本文對性別(男、女,女性為參考組)迴歸係數的說明。
複迴歸分析所得迴歸係數的解釋與簡單線性迴歸有何不同?也是需要了解的。本文另有一個小重點,這種多個自變數產生的迴歸模型,正確用法是多變量(multivariate)分析或是多變項(multivariable)分析呢?二詞常被混用。嚴格來說,這二種的定義是不同的,正確用法一樣在內文中。Hope u enjoy it.😊
想進一步了解線性迴歸的朋友,可至👉匯東華統計學院購買👉生物統計總複習課程。
BMJ「相關分析與迴歸」主題系列文章
BMJ「相關分析與迴歸」主題系列文章
題目:
研究人員調查睡眠呼吸中止和高血壓間的關係。共有2677名20-85歲的成年人被招募到多倫多的一家睡眠診所,他們被懷疑患有睡眠呼吸中止綜合症。睡眠呼吸中止的嚴重程度採用呼吸中止低通氣指數來衡量,該指數的定義是呼吸中止事件的總數加上低通氣事件的總數除以總睡眠時間。在標準條件,患者醒著和仰臥的情況下,每天早上起床前測量幾個讀數的平均值[1]。
採用多元迴歸分析血壓與呼吸中止指數、年齡、性別和頸圍間的關係。對收縮壓和舒張壓分別進行迴歸分析(下表)。分析僅限於1865名未服用抗高血壓藥物的患者。
下列敘述何者正確?
a)假設收縮壓和舒張壓與呼吸中止-低通氣指數、年齡和頸圍均呈線性關係
b)可以得出,在未服用抗高血壓藥物的呼吸中止病人中,呼吸中止-低呼吸指數的影響與收縮壓和舒張壓獨立相關
c)分析的結果可以外推(extrapolated)到呼吸中止指數、年齡和頸圍的觀察範圍之外
d)分析的結果可以外推到所有因疑似睡眠呼吸中止而轉到睡眠診所的病人
答案
a,b是正確的,c,d是錯誤的
詳細說明:
複迴歸分析的目的是利用呼吸暫停指數、年齡、性別和頸圍來預測血壓。病人是那些因疑似睡眠呼吸中止而轉介到睡眠診所的人。分析僅限於1865名沒服用高血壓藥物的患者。分別分析收縮壓和舒張壓。收縮壓和舒張壓是因變數,而呼吸中止指數、年齡、性別和頸圍是獨立的、預測變數或稱為解釋變數。
複迴歸是簡單線性迴歸[2]的延伸。簡單線性迴歸研究一個連續型自變數和連續型因變數的線性關係。複迴歸,有時被稱為多變數分析(multivariable analysis),為同時調查兩個或多個解釋變數,如上例所示,解釋變數可以是連續變數和類別變數。對於上面的每一迴歸分析,血壓與解釋變數-呼吸中止低通氣指數、年齡和頸圍之間被假設為線性關係(a正確)。對於以性別作為解釋變數,分析是提供男性和女性血壓平均值的差異。
以收縮壓和舒張壓為因變數進行複迴歸分析時,各解釋變數的斜率或梯度用大寫的β表示,即迴歸係數。係數的95%信賴區間(CI)為母群體斜率參數提供區間估計。P值用於檢定統計虛無假設(抽樣的母群體中,因變數和解釋變數間的線性關係之斜率為零)相對於對立假設(斜率不等於零)。研究人員沒有提供複迴歸分析的截距估計值,即當所有解釋變數都為零時收縮壓和舒張壓的值。因此,不可能根據解釋變數的值來預測血壓的測量值,只能描述關係的性質。
迴歸係數有時被稱為偏迴歸係數。當解釋變數增加一個單位,而所有其他解釋變數通過控制或調整保持不變時,血壓平均會變化的量。因此,呼吸中止低通氣指數每增加一個單位,舒張壓平均增加0.07 mmHg,年齡每增加一歲,舒張壓增加0.21 mmHg,頸圍每增加1 cm,舒張壓增加0.47 mmHg。對舒張壓進行迴歸分析,性別係數(男性)為2.05。因此,男性的平均舒張壓比女性高2.05 mmHg。
對於舒張壓,所有解釋變數的迴歸係數均與0有顯著差異,P值小於0.05(5%),95%信賴區間不包含0。所以,在迴歸分析中,每個解釋變數的影響被認為是獨立於所有其他變數的。對於收縮壓,呼吸暫停-低呼吸指數、年齡和頸圍的影響是獨立的,而性別則不是。因此,在未服用降壓藥物的呼吸中止患者中,呼吸中止-低呼吸指數對收縮壓和舒張壓有獨立相關的影響力(b正確)。
複迴歸線的計算使用普通最小平方方法(LOS),通常稱為最小平方法,該分析有一系列假設[2],這些假設和簡單線性迴歸的假設相同。包括,收縮壓和舒張壓與每一個連續的解釋變數,即呼吸中止-低呼吸指數,年齡和頸圍呈線性關係(a正確)。其次,觀察結果資料是相互獨立的,即每個病人在每個複迴歸分析中的因變數和解釋變數只有一個觀察值。第三,假設各迴歸分析的殘差均為常態分佈。殘差為病人觀察血壓值和使用迴歸方程計算的預測值間的差值。另一個假設,對於因變數和解釋變數間的每一線性關係,在所有解釋變數的所有因變數值之變異具有一致性。若有任何假設有疑慮,除了假設觀察值間的獨立性外,為了滿足這些假設,可以考慮因變數的轉換,如對數轉換[3]。應使用轉換後的資料重新分析,包括檢查假設是否成立。
複迴歸分析僅可用於預測呼吸中止指數、年齡和頸圍的觀察範圍內之血壓(c錯誤)。在解釋變數的觀察範圍外,不可能預測跟因變數關係的性質。此外,該結果不能外推到所有睡眠診所就診的患者,特別是有服用抗高血壓藥物的患者(d錯誤)。在這些患者中,不可能預測血壓和解釋變數間的關係——它沒有被調查過,可能與未服用抗高血壓藥物患者的情況有很大差異。研究結果的概化和外推可參考前面問題[4]。
Reference:
[1] Lavie P, Herer P, Hoffstein V. Obstructive sleep apnoea syndrome as a risk factor for hypertension: population study. BMJ 2000;320:479-82.
[2] Sedgwick P. Simple linear regression. BMJ 2013;346:f2340.
[3] Sedgwick P. Log transformation of data. BMJ 2012;345:e6727.
[4] Sedgwick P. Generalisation and extrapolation of study results. BMJ 2013;346:f3022.
#BMJ
#醫學統計
#Linear regression
原始題目:
Researchers investigated the association between sleep apnoea and hypertension. A total of 2677 adults, aged 2085 years, referred to a sleep clinic in Toronto with suspected sleep apnoea syndrome were recruited. Severity of sleep apnoea was measured using the apnoeahypopnoea index, defined as the total number of apnoeic events plus hypopnoeic events divided by the total number of hours of sleep. Blood pressure measurements were averaged across several readings, taken under standard conditions, with the patients awake and supine, just before getting out of bed in the morning.
Multiple regression was used to examine the association between blood pressure and apnoeahypopnoea index, age, sex, and neck circumference. Separate regression analyses were performed for systolic and diastolic blood pressure (table⇓). Analyses were restricted to 1865 patients not taking antihypertensive drugs.
Which of the following statements, if any, are true?
a) Systolic and diastolic blood pressures were assumed to be linearly related to each of apnoea-hypopnoea index, age, and neck circumference
b) It can be concluded that the effect of the apnoea-hypopnoea index was independently associated with systolic and diastolic blood pressure in patients with apnoea not taking antihypertensive drugs
c) The results of the analyses can be extrapolated outside the observed range of values for apnoeahypopnoea index, age, and neck circumference d) The results of the analyses can be generalised to all patients referred to the sleep clinic with suspected sleep apnoea
Answers
Statements a and b are true, whereas c and d are false.
Cite this as: BMJ 2013;347:f4373
https://www.bmj.com/content/347/bmj.f4373
沒有留言:
張貼留言