2023年5月27日 星期六

BMJ小小統計問題(92):Non-parametric statistical tests for independent groups: numerical data (獨立樣本之無母數分析:數值資料)

 

BMJ小小統計問題(92):Non-parametric statistical tests for independent groups: numerical data (獨立樣本之無母數分析:數值資料)


Cite this as: BMJ 2014;348:g2907

https://www.bmj.com/content/348/bmj.g2907

                                                 

前言

本周主題同樣為兩組獨立樣本在數值變數進行檢定之無母數分析。與上周的題目相同,但使用情境不同。上週#BMJ小小統計問題為檢定三組獨立樣本情境,本週為檢定兩組獨立樣本情境。相關主題的BMJ小小統計問題請見下方。

 

# BMJ小小統計問題(29):獨立樣本t檢定 (Independent samples t test)

# BMJ小小統計問題(64):Parametric v non-parametric statistical tests (母數 v 無母數統計檢定)

# BMJ小小統計問題(66):Log transformation of data (資料的對數轉換)

# BMJ小小統計問題(91):Non-parametric statistical tests for independent groups: numerical data (獨立樣本之無母數分析:數值資料)

 

6月份公司課程招生中,精彩可期,介紹與報名連結請見留言區。

5/27WS3-SPSS醫學研究統計工作坊:配對研究設計與分析」,圓滿結束。

6/10()AI01-探索ChatGPT、以及AI02-活用ChatGPT招生中。

“AI01課程將帶你了解ChatGPT的基本原理,並學習如何在日常工作或研究中運用它。AI02課程則是進階課程,將帶你深入瞭解如何在研究中活用ChatGPT,包括概念生成、文獻整理,到論文撰寫與審稿回覆等六大場景,及對學術研究的影響。”

6/17()WS1-統合分析研究工作坊:基礎班」、6/18()WS2-統合分析研究工作坊:實戰班」招生中

“帶你從零基礎開始,由淺入深進入系統性綜述/統合分析的世界。有理論,更有實務。”

6/24() WS4-SPSS進階醫學統計:縱貫性研究設計與分析--重複測量分析法改期至7/8()開課

“面對重複定時或不定時收集的研究資料,如何選擇適合的分析方法?這是許多研究者相對陌生的領域,本課程將帶你突破重重迷霧。”


詳細資訊請上匯東華官網/課程報名

精彩可期,歡迎加入!



問題

研究人員描述全國腹裂嬰兒世代一年的結果。採用前瞻性世代研究設計。研究對象是2006年10月至2008年3月間來自英國和愛爾蘭所有28個小兒外科中心的301名腹裂活產嬰兒。該研究目的是描述一年後的結果,比較單純性腹裂(腸道完整、未受損、連續)和複雜性腹裂(腸道穿孔、壞死或閉鎖)的嬰兒。主要結局指標包括靜脈營養持續時間及住院時間[1]。

 

靜脈營養持續時間和住院時間不符合常態分佈。因此,使用無母數檢定對嬰兒組進行比較。複雜腹裂嬰兒靜脈營養持續時間明顯長於單純腹裂嬰兒(中位數51天(四分位差29-92) vs 23天(16-38); P < 0.001)。伴有複雜腹裂患者也需要更長的住院時間 (中位數84天 (47-197) vs 36天(23-57)); P < 0.001)。

 

研究人員得出結論,國家世代提供一個基準,供各中心衡量結果和表現。將腹裂新生兒分為簡單組和複雜組,能夠可靠地預測一年後之預後。

 

下列哪項統計檢定可用於比較單純和複雜腹裂患兒組在靜脈營養持續時間的差異?

a) Kruskal-Wallis test

b) Mann-Whitney U test

c) Wilcoxon rank sum test

d) Wilcoxon signed ranks test

 

 

 


 

答案

Kruskal-Wallis test(答案a)、Mann-Whitney U test(答案b)和Wilcoxon rank sum(答案c)均可用於比較單純性腹裂患兒與複雜性腹裂患兒的靜脈營養持續時間。

詳細說明

之前問題描述如何使用兩種統計方法-母數和無母數檢定-進行統計假設檢定[2] (#BMJ小小統計問題64題)。母數檢定假設被分析的變數在母群體中有一特定的分佈——通常是常態分佈。常態分佈已於之前問題描述[3]。無母數方法對資料在母群體中之分佈不作任何假設,有時被稱為無分佈法(distribution-free)或排序(rank)法。

 

在上述研究中,靜脈營養持續時間不服從常態分佈。因此,採用無母數統計檢定比較單純性和複雜性腹裂患兒靜脈營養持續時間。此兩組嬰兒是互相獨立的,亦即,嬰兒只能屬於一個組。Mann-Whitney U test(答案b)和Wilcoxon rnak sum test(答案c)是無母數檢定,比較兩獨立組別在連續或序位尺度上測量的變數。這些檢定給出相同的P值,因此得出相同的結論。虛無假設顯示,單純腹裂和複雜腹裂患兒組的靜脈營養持續時間在母群體中的分佈相同,即兩組的靜脈營養持續時間中位數在母群體中相等。經統計學檢定,P值<0.001。因此,拒絕虛無假設,支持對立假設,即在母群體中,兩組嬰兒在靜脈營養持續時間的分佈上存在差異。複雜性腹裂患兒的靜脈營養持續時間明顯長於單純性腹裂患兒(51天vs 23天)。

 

Kruskal-Wallis test(答案a)為無母數檢定法,是Mann-Whitney U和Wilcoxon rank sum test之擴展。Mann-Whitney U和Wilcoxon rank sum test比較變數在兩個獨立組別間之分佈,而Kruskal-Wallis test用於比較變數在三個或更多獨立組間的分佈。然而,多數統計套裝軟體允許在只有兩個獨立組時使用Kruskal-Wallis test,得到的P值與使用Mann-Whitney和Wilcoxon rank sum test得到的P值相等。因此,在統計假設檢定方面也能得出相同的結論。

 

在本例中,靜脈營養的持續時間不符合常態分佈。靜脈營養持續時間分佈為偏態,因此採用無母數檢定比較單純性和複雜性性腹裂患兒組。雖然研究人員沒有討論,但資料轉換後可能已滿足母數統計檢定的假設。資料轉換通常為對數變換,以獲得常態分佈[4](#BMJ小小統計問題第66題)。若兩獨立組別進行比較的變數符合常態分佈,則能使用Student’s test [5]( #BMJ小小統計問題第29題)。

 

Wilcoxon signed ranks test(答案d)為一無母數檢定法,用於比較連續或序位變數中的兩個相關組別。兩樣本中之參與者必須配對或成對 [6]。例如,每個參與者在介入前後被測量兩次。或若兩組進行配對,就會有一對參與者,各組一個在年齡和性別等一系列變數進行配對。

 

Reference

[1] Bradnock TJ, Marven S, Owen A, Johnson P, Kurinczuk JJ, Spark P, et al; on behalf of BAPS-CASS. Gastroschisis: one year outcomes from national cohort study. BMJ 2011;343:d6749.

[2] Sedgwick P. Parametric v non-parametric statistical tests. BMJ 2012;344:e1753.

[3] Sedgwick P. The Normal distribution. BMJ 2010;341:c6085.

[4] Sedgwick P. Log transformation of data. BMJ 2012;345:e6727.

[5] Sedgwick P. Independent samples t test. BMJ 2010;340:c2673.

[6] Sedgwick P. Non-parametric statistical tests for two related groups: numerical data. BMJ 2012;344:e2537.

 

#BMJ  #醫學統計  #Parametric analysis  #Non-parametric analysis # Kruskal-Wallis test #Wilcoxon rank sum test #Mann-Whitney U test

2023年5月22日 星期一

統合分析處理出版偏差常見作法

  統合分析處理出版偏差常見作法

  

 

文獻:McClain MB, Callan GL, Harris B, et al. Methods for addressing publication bias in school psychology journals: A descriptive review of meta-analyses from 1980 to 2019. Journal of School Psychology. 2021/02/01/ 2021;84:74-94. doi:https://doi.org/10.1016/j.jsp.2020.11.002

2022-2023 IF=6.033

Publication bias是統合分析中常見問題,可能影響結論的效度(validity)以及概化程度(generalization),也可能導致效果量被過分誇大。本篇研究介紹1980年到2019年初發表於學校心理學重要期刊的所有88篇統合分析結果。其中50%的研究包括灰色文獻,60%研究則採用方法來檢定和校正出版偏差。

-最常見的檢定和校正偏差的方法包括漏斗圖的視覺分析(Visual Examination of a Funnel Plot)Orwin的失敗安全數N(Orwin’s Failsafe N)Egger’s迴歸(Egger’s Regression),以及修剪和填補法(Trim and Fill Procedure)。儘管存在多種可以檢定和校正出版偏差的方法,但這些方法並無廣泛被使用,無任何一種方法在超過20%的研究中被採用。

-有採用出版偏差檢定和校正的文章中,大約一半的研究採用了一種方法,20%的研究採用了兩種方法,7%的研究採用了三種方法,而沒有一個研究採用了所有四種方法。這些方法在最近發表的研究中最為明顯。換言之,近期的研究相比過去的研究,更傾向於使用這些方法來處理出版偏差的問題。可能反映學者對出版偏差問題的有更深認識,並在研究時更加重視。

匯東華:6月份---統合分析研究工作坊👈熱烈報名中!

#meta-analysis #publication bias #Funnel Plot #Orwins Failsafe N #Eggers Regression #Trim and Fill Procedure #匯東華統合分析研究工作坊

 

2023年5月14日 星期日

BMJ小小統計問題(90):Standard deviation or the standard error of the mean (標準差或平均值的標準誤)

BMJ小小統計問題(90): Standard deviation or the standard error of the mean 

(標準差或平均值的標準誤)

 

Cite this as: BMJ 2015;350:h831

https://www.bmj.com/content/350/bmj.h831.long

 

前言

原來已經到90期了,在不知不覺間,多少個日日夜夜,維持每周一期的頻率,90期,90周,代表原來已經過了一年7個多月。然後,不知不覺,繼續前進就到100期、200期、30

很多事情,規劃好,選定方向,就開始進行,成功或失敗也不用太在意,自己喜歡就好。

標準差與標準誤是統計中非常基本的兩個概念,是機率描述以及推論的基礎,也是讓很多人頭痛的點。本期內容與第#80Standard deviation versus standard error (標準差和標準誤)可以一併參照閱讀,是解痛良方。

 

匯東華2023秋、冬季課程與工作坊日期即將公告

5/20ChatGPT於科學研究之應用」:活用ChatGPT`:六大研究應用場景實戰,熱烈報名中!

5/27WS3-SPSS醫學研究統計工作坊:配對研究設計與分析」,熱烈報名中!

👉詳細資訊見課程報名網頁

 

 

問題

研究妊娠期低血糖指數飲食對有巨大嬰兒(大於胎齡)風險的孕婦和新生兒發病率的影響。進行隨機對照試驗。介入包括從妊娠早期開始的低血糖指數飲食。對照組不進行飲食介入。參與者均為無糖尿病的女性,都是第二次懷孕,以前生過體重超過4000克的嬰兒。總共招募800名婦女,並隨機分為介入組(n=394)和對照組(n=406)[1]

治療組的基線特徵包括身體質量指數(BMI)(介入:平均值26.8(標準差5.1);對照26.8(4.8))。結果測量包括出生體重和妊娠體重增加。介入組的婦女中,372人完成追蹤中,而對照組的婦女則有387人完成追蹤。使用 per protocol analysis (Showme:可參閱# BMJ統計問題(23)。介入組之平均出生體重高於對照組,但差異不顯著(平均4034(標準誤26.4) vs 4006 (25.3) g;平均差異為28.6 g, 95%信賴區間- 45.6 ~ 102.8;P = 0.449)。介入組平均妊娠體重增加明顯較少(12.2(標準誤0.23)vs 13.7 (0.25) kg;平均差- 1.35 kg - 2.45 ~ - 0.24;P = 0.01)。研究人員得出結論,懷孕期間低血糖指數飲食並不能顯著降低嬰兒的出生體重,但對於有巨大嬰兒風險的婦女來說,會顯著減少妊娠體重增加。

 

下列敘述何者正確?(複選)

a) BMI的標準差量化分配到不同治療組樣本成員在基線時測量值的變化

b)出生體重的標準誤量化母群體中出生體重測量值的變化

c)在基線時,約66%的樣本成員BMI在樣本平均值的一個標準差範圍內

d)若樣本量增加,則標準誤的大小預計會減小


 

答案

a, cd正確,b錯誤。

 

詳細說明

a, cd正確,而b錯誤。標準差和標準誤差經常被混淆。標準差用於描述樣本數字的變數測量值之變化(a正確)。標準誤為將樣本平均值作為描述母群體參數,即母群體平均值估計值之精確程度(b錯誤)。如,標準誤有時被稱為平均值的標準誤,用於使用信賴區間對母群體參數進行推論。兩者應用情境為:標準差用於描述,標準誤用於估計。

該試驗目的是確定懷孕期間低血糖指數飲食對有巨大嬰兒風險的孕產婦和新生兒發病率的影響。採用隨機對照試驗研究設計。隨機化目的是為了獲得基線特徵相似的組別,從而最大限度地減少干擾。為了評估隨機化過程是否成功,研究人員對介入組和對照組的基線特徵進行了描述性統計。各治療組採用目視檢查而非統計學顯著性檢驗進行比較。隨機化預計會產生具有相似基線特徵的治療組,因此統計假設檢定通常被認為是不合適的,因為它有可能出現I型錯誤(type I error),並可能產生誤導性的結果[2-3]。提供基線特徵的描述性統計資料允許讀者評估試驗結果是否可以概化到臨床實務之病人。

基線特徵包括BMIBMI的樣本標準差量化了BMI的變化——特別是,對於每個治療組,它提供了樣本成員的平均BMI與基線時樣本平均BMI的變化程度(a正確)[4]。基線時BMI的樣本標準差可用於計算BMI的範圍,其中包含樣本成員的近似百分比。通常推導出三個範圍。如,對於介入組,大約68%的樣本在基線時的BMI與樣本平均值的距離位於正負一個樣本標準差內,即在(26.8-5.1;=21.7)(26.8+5.1);= 31.9)。此外,大約95%的介入組在基線時的BMI與樣本平均值的距離不超過兩個樣本標準差,即在(26.82(5.1)之間;=16.6)(26.8+2(5.1);37.0)。最後,大約99%的介入組在基線時的BMI與樣本平均值的距離不超過3個樣本標準差,即在(26.83(5.1)之間;11.5)(26.8+3(5.1);42.1)

上述三個範圍的推導是基於常態分佈的性質[5]。對於在連續尺度上測量的任何變數,都能推導出這些範圍,只要樣本變數的分佈非呈偏態。通常只考慮基於一個和兩個樣本標準差的範圍。每個範圍中包含的樣本成員的比例為近似值。基於此,作者經常說,在基於兩個樣本標準差的範圍內包括約三分之二(66%),的樣本個數,而不是68% (c正確)。毫無疑問,三分之二比68%更容易記住。基於兩個樣本標準差的範圍通常用於推導常態範圍[6]。有時可以用所得的範圍來確定某變數的測量分佈是否偏斜。尤其是,若一個範圍的下限是不允許的或不太可能的,表明測量的分佈向右傾斜(正偏態)[7]

上述試驗結果包括出生體重。樣本的平均出生體重是母群體參數之估計值,每個治療組估計不同的母群體參數。母群體參數是在抽取樣本的母群體中所有母親接受介入或對照治療時所看到的平均出生體重。雖然平均出生體重之樣本估計值在大小上與母群體參數相似非常重要,但它不太可能完全相等。樣本估計中的任何不準確都是基於母群體中母親的樣本——亦即,它可能是由抽樣誤差引起的。樣本平均出生體重作為母群體參數估計值的準確性由平均值的標準誤來量化。治療組的平均值標準誤由出生體重的樣本標準差除以治療組樣本量的平方根得出。因此,一般來說,若樣本量增加,平均值的標準誤大小預計會減小(d正確)。因為當治療組的樣本量接近母群體的樣本量時,樣本平均值的值將更接近母群體平均值,從而成為對母群體參數的更準確估計。

 

各組間平均出生體重差值為28.6 g,為母群體平均出生體重差之樣本估計值。平均值差的標準誤推導方法與上述樣本平均值標準誤的推導方法類似。對於每個治療組,樣本變異數除以樣本量後將結果值加在一起,該值的平方根等於平均差的標準誤。使用平均差的標準誤來推導出生體重平均差的母群體參數之信賴區間。信賴區間是母群體參數之區間估計,它量化了樣本平均出生體重差異作為母群體參數估計的準確性。在信賴區間上附加一個百分比,通常為95%。母群體出生體重平均差異的95%信賴區間為樣本出生體重平均差異兩側的1.96標準誤區間,即從(28.61.96(37.86);=45.6 g) ~ (28.6+1.96(37.86);102.8 g)。可以推斷,信賴區間包含母群體參數的機率為0.95(95%)。如上所述,可以推導出樣本平均值加上樣本均值差的標準誤。還可以計算其他類樣本估計值的標準誤,包括比例、兩個比例間的差異、相對風險和勝算比。每個估計值的標準誤與上面描述的方法類似,用於得出母群體參數的95%信賴區間。

Reference:

[1] Walsh JM, McGowan CA, Mahony R, Foley ME, McAuliffe FM. Low glycaemic index diet in pregnancy to prevent macrosomia (ROLO study): randomised control trial. BMJ 2012;345:e5605.

[2] Sedgwick P. Randomised controlled trials: balance in baseline characteristics. BMJ 2014;349:g5721.

[3] Sedgwick P. Pitfalls of statistical hypothesis testing: multiple testing. BMJ 2014;349:g5310.

[4] Sedgwick P. Describing the spread of data I. BMJ 2010;340:c1116.

[5] Sedgwick P. The normal distribution. BMJ 2012;345:e6533.

[6] Sedgwick P. Normal ranges. BMJ 2013;346:f1343.

[7] Sedgwick P. Skewed distributions. BMJ 2012;345:e7534

 

#BMJ  #醫學統計  #Standarderror  #Standarddeviation  #匯東華  #95%信賴區間

 

 

JAMA Internal Medicine:醫師 vs. ChatGPT對社交媒體上病人問題的回覆,誰更好?

JAMA Internal Medicine :醫師 vs. ChatGPT 對社交媒體上病人問題的回覆,誰更好?   全文連結: https://reurl.cc/Ovk14D 重點:   問題: ChatGPT是否能提供與醫生的回覆同等的品質和同理心?   ...