BMJ統計問題(39):相關 VS. 線性迴歸
(Correlation versus linear regression)
匯東華的小小統計問題 :D
每周末出刊。完整系列文章,可至匯東華網誌、匯東華FB粉絲頁閱讀。
想了解生物統計學更多內容,可至👉匯東華統計學院購買👉生物統計學總複習課程。
本期要釐清的是簡單線性迴歸和相關,二者目的常被搞混。同第35題簡單線性迴歸及38題相關範例與概念。把X、Y對調,所得相關係數相同,但迴歸方程式不同,不能一概而論。需要提醒的是,本例所使用的研究設計為橫斷性研究法,並無法明確因果關係。此外,一圖抵萬言。探討兩個連續變項間的關係時,先作散佈圖了解兩變數的關係性質是非常重要的。無論相關或迴歸,其假設之一都有兩變數須為線性關係。可由兩變數的散佈圖檢視線性擬和狀況。這系列文主題如下:
👉BMJ「相關分析與迴歸」主題系列文章
於此,線性相關與迴歸到到一段落。Hope u enjoy it.😊
接下來要開啟的為Logistic regression以及研究設計主題。Logistic regression為近年很紅的機器學習常用演算法之一,因ML常見目的為用特徵(因子)對個案作分類,因此,依變數多為類別。最近BMJ刊登一篇針對機器學習問題進行論述的文章,有機會來分享。
另外,也會穿插meta-analysis議題,這方面有不少需求。還有 longitudinal data的分析,最近要開始處理的分析專案為全國性長達10年的追蹤資料,也是有許多可以談的主題。進行真實世界的大數據研究,要翻翻前面介紹的JAMA文章:臨床大數據研究分析指引。透過目前趨勢可以發現來自次級大資料庫這類型的研究設計愈來愈被嚴格檢視。就是為了能釐清X跟Y之間的關係,才持續不斷地透過許多方法嘗試去偽存真。
這二週請同仁居家辦公,延燒的疫情打亂不少既定行程跟規劃。不過既然遇到了,就想方設法面對跟處理。少口水,多行動;做好自己能做的,保持醫療量能,減少困擾。
題目:
研究人員調查右心室大小和功能與不同程度肺動脈高壓的關係[1]。採用橫斷面研究設計。參與者包括190名被轉介到肺動脈高壓診所的患者[2]。
右心室大小的測量包括右心室收縮末期面積(RVESA)的心臟超音波圖記錄。肺動脈收縮壓(PASP)表示肺動脈高壓的程度。肺動脈收縮壓對於右心室收縮末期面積的散布圖如下圖。採用線性迴歸分析方法檢定右心室大小與肺動脈高壓程度的關係。得到的擬合線性迴歸線如下:
PASP=2.7133(RVESA)+15.717.
右心室收縮末期面積(RVESA)與肺動脈收縮壓間有顯著相關存在 (r=0.74;p<.001)。
下列敘述何者正確?
a)迴歸線便於從右心室收縮末期面積預測肺動脈收縮壓
b)迴歸線意為肺動脈收縮壓與右心室收縮末期面積存在因果關係
c)相關量化肺動脈收縮壓與右心室收縮末期面積線性相關的強度
d) Pearson相關係數可用於量化肺動脈收縮壓被右心室收縮末期面積所描述的變異程度
答案
a,c,d正確,b錯誤。
詳細說明:
本研究目的為探討右心室收縮末期面積與肺動脈高壓嚴重程度的關係。散佈圖(圖)提示正線性相關——隨著右心室收縮末期面積的增加,肺動脈收縮壓也增加。研究人員使用簡單線性迴歸和相關來調查這種關係。簡單線性迴歸和相關的目的常被搞混。
簡單線性迴歸以一數學方程式來量化兩變數間線性關係[1]。以本例而言,最能描述肺動脈收縮壓(PASP)與右室收縮末期面積(RVESA)間的線性關係方程式為:PASP=2.7133(RVESA)+15.717;PASP被稱為因變數,而RVESA被稱為獨立、預測或解釋變數。迴歸線的斜率為2.7133,是方程式中RVESA的係數;代表RVESA每增加一個單位(1 cm**2),PASP的平均變化量。若將RVESA設為0,可得到迴歸線的截距為15.717,即直線與Y軸相交時PASP的值。迴歸線便於預測右室收縮末期面積各值的肺動脈平均收縮壓(a正確)。
迴歸線量化肺動脈收縮壓隨右室收縮末期面積增加的平均變化,被稱為肺動脈收縮壓對右心室收縮末期面積的迴歸。然而,計算迴歸線的方式,無法量化隨著肺動脈收縮壓的增加,右心室收縮末期面積的平均變化。但是,線性迴歸的目為併不一定是推論右心室收縮末期面積的改變引起肺動脈收縮壓的改變(b錯誤),而是這兩變數間關係的性質。
相關[3,4]量化肺動脈收縮壓與右心室收縮末期面積間的線性關係(c正確)。具體來說,相關表示各點與迴歸線的距離。上面例子中使用Pearson相關係數。係數測量沒有單位,範圍從−1到0到+1。肺動脈收縮壓與右室收縮末期面積有顯著相關(r=0.74;P < 0.001)。表示肺動脈收縮壓值與右室收縮末期面積間存在很強的正相關,即隨著肺動脈收縮壓的增加,右室收縮末期面積也隨之增加。
迴歸線擬合數據的好壞,可以通過計算統計量R**2來評估。該統計資料以Pearson相關係數(r)的平方計算,通常以百分比表示(d正確)。因此,對於本例而言,R2等於(0.74)**2×100%=54.8%,表示觀察到的肺動脈收縮壓變化可以用其與右心室收縮末期面積的關係來解釋的比例。沒有正式的統計檢定用來評估R**2,其為主觀判斷,用於評估迴歸線與資料之吻合程度。從圖中可見,擬合百分比並不高,54.8%的肺動脈收縮壓變化與右心室收縮末期面積有關。複線性迴歸分析涉及到方程中包含多個解釋變數,可以提高擬合度。
[1] Sedgwick P. Simple linear regression. BMJ 2013;346:f2340.
[2] López-Candales A, Dohi K, Rajagopalan N, Edelman K, Gulyasy B, Bazaz R. Defining normal variables of right ventricular size and function in pulmonary hypertension: an echocardiographic study. Postgrad Med J 2008;84:40-5.
[3] Sedgwick P. Pearson’s correlation coefficient. BMJ 2012;345:e4483.
[4] Sedgwick P. Correlation. BMJ 2012;345:e5407.
#BMJ
#醫學統計
#Linear regression
#Correlation
原文題目:
A recent statistical question described how researchers investigated the association between right ventricular size and pulmonary hypertension.[1] A cross sectional study design was used. Participants were 190 patients referred to a pulmonary hypertension clinic.[2]
Measurements of right ventricular size included right ventricular end systolic area (RVESA) recorded echocardiographically. Pulmonary artery systolic pressure (PASP) was used to indicate the extent of pulmonary hypertension. A scatter plot of
pulmonary artery systolic pressure against right ventricular end systolic area was presented (figure). Linear regression analysis was used to examine the association between right ventricular size and degree of pulmonary hypertension, with the resulting fitted linear regression line given by PASP=2.7133RVESA+15.717. A significant correlation existed between right ventricular end systolic area and pulmonary artery systolic pressure (r=0.74; P<0.001).
Which of the following statements, if any, are true?
a) The regression line facilitated the prediction of pulmonary artery systolic pressure from right ventricular end systolic area
b) The regression line implied there was a causal association between pulmonary artery systolic pressure and right ventricular end systolic area
c) Correlation quantified the strength of the linear association between pulmonary artery systolic pressure and right ventricular end systolic area
d) Pearson’s correlation coefficient may be used to quantify the variability in pulmonary artery systolic pressure described by right ventricular end systolic area
Answers
Statements a, c, and d are true, whereas b is false.
Cite this as: BMJ 2013;346:f2686
https://www.bmj.com/content/346/bmj.f2686
沒有留言:
張貼留言