BMJ統計問題(35):簡單線性迴歸 (Simple linear regression)
匯東華的小小統計問題 :D
每周末出刊。
本期介紹簡單線性迴歸,內容十分豐富。包括該迴歸線是如何找出來的?如何解釋截距與迴歸係數?使用迴歸分析的假設為何?如何判定是否符合假設?不符合時如何處理?還有,很重要的觀念是,與前面所介紹的相關(correlation)差異為何?Hope u enjoy it.😊
👉BMJ「相關分析與迴歸」主題系列文章
題目:
研究人員調查右心室大小和功能與不同程度肺動脈高壓的關係。採用橫斷面研究設計。參與者包括190名被轉介到肺動脈高壓診所的患者[1]。
右心室大小的測量包括右心室收縮末期面積(RVESA)的心臟超音波圖記錄。肺動脈收縮壓(PASP)表示肺動脈高壓的程度。肺動脈收縮壓相對於右心室收縮期末區域的散布圖如下圖。採用線性迴歸分析方法檢定右心室大小與肺動脈高壓程度的關係。得到的擬合線性迴歸線如下:
PASP=2.7133(RVESA)+15.717.
下列對線性迴歸的敘述何者為是?
a)根據右心室收縮期末面積的大小,可以預測肺動脈收縮壓
b)根據肺動脈收縮壓值可以預測右心室收縮期結束面積
c)假設右心室收縮期末所有值的肺動脈收縮壓變異數相等
d)該線可外推至右心室收縮期末觀測值範圍外
答案
a和c正確,b和d錯誤。
詳細說明:
研究人員調查右心室收縮末期面積與肺動脈高壓嚴重程度間的關係。散布圖顯示存在線性關係——隨著右心室收縮期末面積的增加,肺動脈收縮壓也增加。這種關聯是以簡單線性迴歸來探討的,通常被稱為線性迴歸,量化兩個變數之間任何線性關係之性質,可用一條數學方程來說明。
肺動脈收縮壓被認為依賴於或至少與右心室收縮期末面積有關。右心室大小的變化與肺動脈收縮壓的變化有關。PASP=2.7133(RVESA)+15.717為最能描述兩變數間關聯的直線;其描述肺動脈收縮壓(PASP)隨著右心室收縮末期面積(RVESA)的變化而平均變化的程度。PASP為因變數,RVESA為獨立的、預測的或解釋變數。迴歸線的截距,即當直線與Y軸相交時,RVESA為0所計算得到的PASP值,為15.717。迴歸線的斜率或梯度為2.7133——方程式中RVESA的係數;表示RVESA每增加一個單位(1 cm2)的PASP的平均變化量。因此,RVESA的每一個值,都可計算出PASP的預測值。
線性迴歸線使用普通最小平方法(ordinary least square method, OLS)計算,通常稱為最小平方法。此方法考慮通過散布圖上的點之所有可能直線。推導出每一條可能的直線的殘差(散布圖上每一點與直線間的垂直差距)。殘差即為患者肺動脈收縮壓的觀察值與右心室收縮期末面積測量值所算出的預測值間的差值。殘差的測量單位與肺動脈收縮壓相同。擬合所得的迴歸線為最佳擬合之一——亦即,在所有可能的直線上,有最小的殘差平方和。
在本例中,線性迴歸線為右心室收縮期末預測肺動脈收縮壓的迴歸。當右心室收縮期結束面積給定值時,可用於預測肺動脈收縮壓(a正確)。然而,在給定的動脈收縮壓下預測右心室收縮期末區域是不可能的(b錯誤)。這是因為最小平方迴歸線是基於肺動脈收縮壓的殘差。為了根據給定的肺動脈收縮壓預測右心室收縮期末面積,就需要對右心室收縮期末面積進行肺動脈收縮壓的迴歸,將涉及到右心室收縮期末面積的殘差。
使用線性迴歸分析須有一系列的假設。第一個假設是肺動脈收縮壓與右心室收縮期末面積間存在明顯的線性關係。從散布圖的檢查來看,是符合的。第二個假設是散布圖上的觀察結果是相互獨立的,即每個病人只有一次肺動脈收縮壓和右心室收縮期結束面積的觀察。第三,假設殘差為常態分布;此可通過觀察直方圖來驗證。此外,還假設右心室收縮期結束面積的所有值之肺動脈收縮壓分布的變異分布是相同的(c正確)。對散布圖的檢查顯示,此一假設已被違反,因為隨著右心室收縮期末面積的增加,所觀察到的肺動脈收縮壓測量值在擬合線性迴歸線附近的變異增加。可以考慮對肺動脈收縮壓進行轉換(transformation)。對數轉換[2]可使右心室收縮期末所有值的肺動脈收縮壓分布保固定的變異分布。
線性迴歸線僅可預測樣本右心室收縮期末面積的觀察範圍內之肺動脈收縮壓(d錯誤)。如,當右心室收縮期末面積等於50 cm2時,不能預測肺動脈收縮壓;因該值超出獨立變數的觀測值範圍。肺動脈收縮壓與右心室收縮期末面積間的關係,若無觀察到的右心室收縮期末面積的值,是不能預測的。
線性迴歸和相關的目的經常被混淆。在前面已經說明相關性[3-4]。在之後的統計問題中將進行兩者的對比。
在本例中,應用簡單線性迴歸預測肺動脈收縮壓僅來自一個解釋變數——右心室收縮期末區域。複線性迴歸分析為簡單線性迴歸的自然延伸,包含多個解釋變數,將在以後的統計問題討論。
Reference:
[1] López-Candales A, Dohi K, Rajagopalan N, Edelman K, Gulyasy B, Bazaz R. Defining normal variables of right ventricular size and function in pulmonary hypertension: an echocardiographic study. Postgrad Med J 2008;84:40-5.
[2] Sedgwick P. Log transformation of data. BMJ 2012;345:e6727.
[3] Sedgwick P. Pearson’s correlation coefficient. BMJ 2012;345:e4483.
[4] Sedgwick P. Correlation. BMJ 2012;345:e5407.
#BMJ
#醫學統計
#Pearson’s correlation coefficient
#Correaltion
#Linear regression
原文題目:
Researchers investigated the association of right ventricular size and function with varying degrees of pulmonary hypertension. A cross sectional study design was used. Participants were 190 patients referred to a pulmonary hypertension clinic.1
Measurements of right ventricular size included right ventricular end systolic area (RVESA) recorded echocardiographically. The extent of pulmonary hypertension was indicated by pulmonary artery systolic pressure (PASP). A scatter plot of pulmonary artery systolic pressure against right ventricular end systolic area was presented (figure). Linear regression analysis was used to examine the association between right ventricular size and degree of pulmonary hypertension. The resulting fitted linear regression line was given by
PASP=2.7133RVESA+15.717.
Which of the following statements, if any, are true for the linear regression line?
a) Pulmonary artery systolic pressure can be predicted given a value of right ventricular end systolic area
b) Right ventricular end systolic area can be predicted given a value of pulmonary artery systolic pressure
c) It was assumed that the variation in pulmonary artery systolic pressure was equal for all values of right ventricular end systolic area
d) The line can be extrapolated outside the observed range of values for right ventricular end systolic area
Answers
Statements a and c are true, whereas b and d are false.
https://www.bmj.com/content/346/bmj.f2340
Cite this as: BMJ 2013;346:f2340