2023年6月3日 星期六

JAMA Internal Medicine:醫師 vs. ChatGPT對社交媒體上病人問題的回覆,誰更好?

JAMA Internal Medicine:醫師 vs. ChatGPT對社交媒體上病人問題的回覆,誰更好?

 


全文連結:https://reurl.cc/Ovk14D

重點:

 

問題:ChatGPT是否能提供與醫生的回覆同等的品質和同理心?

 

結果:在這項對社交媒體論壇隨機抽取的195個病人問題的橫斷面研究中,一個由醫療專業人員組成的團隊針對醫師和ChatGPT在公開社交媒體論壇病人的提問回應進行內容品質以及同理心感受的比較。結果顯示,ChatGPT的回覆被認為優於醫師的回應,在品質和同理心觀感上獲得顯著較高的評價。

 

意義:人工智能助手可能可以協助醫師草擬對病人問題的回覆,降低醫師的工作壓力和情緒耗竭。

 

重要性:隨著虛擬醫療的快速擴展,病人訊息的激增導致醫療專業人員的工作量增加和疲勞感加重。人工智能(AI)助手可能有助於草擬回答病人問題的答案,讓臨床醫生審核。

 

摘要:

 

目標:

評估2022年11月推出的AI聊天機器人助手(ChatGPT)對病人問題的品質和同理心回覆能力。

 

設計、場景和參與者:

此為一橫斷面研究,使用去識別化來自公開社交媒體論壇(Reddit’s r/AskDocs)的問題資料庫,隨機抽取2022年10月的195個對話,這些對話中,會有一位取得證照的醫師回答一個公開問題。聊天機器人的回覆為2022年12月22日和23日輸入原始問題產生的(在此之前從未問過問題)。一個由合格醫療專業人員組成的團隊對原始問題及匿名化和隨機排序的醫師和ChatGPT回覆進行三次評估。評價者選擇了“哪個回應更好”,並對“提供的訊息品質”(非常差、差、可接受、好或非常好)和“提供的同理心”(沒有同理心、稍微有、中等同理心、同理心和非常具有同理心)進行評價。平均結果按照1到5的尺度排序,比較醫師與ChatGPT的回覆結果。

 

結果:

  1. 在195個問題和回覆中,評價者在6%(95% CI, 75.0%-81.8%)的585次評估中優先選擇ChatGPT的回覆。平均醫師回覆顯著短於ChatGPT的回覆(52字 vs 211字; P < .001)。
  2. 聊天機器人的回覆品質顯著高於醫師的(P < .001)。例如,被評為好或非常好品質(≥ 4)的回覆比例ChatGPT高於醫師(ChatGPT:5%,醫師:22.1%)。亦即聊天ChatGPT的好或非常好品質回覆比例為醫生的3.6倍。
  3. ChatGPT的回覆也被評為比醫師的更具同理心(t = 18.9; P < .001)。被評為具有同理心或非常同理心(≥4)的回覆比例,ChatGPT高於醫師(醫師:6%;ChatGPT:45.1%)。亦即,ChatGPT的有同理心或非常同理心的回覆比例為醫師的9.8倍。

 

結論:

在此橫斷面研究中,ChatGPT對在線論壇中病人提出的問題可以產生具有品質和同理心的回覆。進一步探索這項技術在臨床場景中的應用具有價值,例如使用聊天機器人來草擬醫師可以編輯的回應。隨機試驗可以進一步評估,若使用AI助手可能會改善回應,降低醫生的耗竭,並改善病人結果。

 

 

2023年5月27日 星期六

BMJ小小統計問題(92):Non-parametric statistical tests for independent groups: numerical data (獨立樣本之無母數分析:數值資料)

 

BMJ小小統計問題(92):Non-parametric statistical tests for independent groups: numerical data (獨立樣本之無母數分析:數值資料)


Cite this as: BMJ 2014;348:g2907

https://www.bmj.com/content/348/bmj.g2907

                                                 

前言

本周主題同樣為兩組獨立樣本在數值變數進行檢定之無母數分析。與上周的題目相同,但使用情境不同。上週#BMJ小小統計問題為檢定三組獨立樣本情境,本週為檢定兩組獨立樣本情境。相關主題的BMJ小小統計問題請見下方。

 

# BMJ小小統計問題(29):獨立樣本t檢定 (Independent samples t test)

# BMJ小小統計問題(64):Parametric v non-parametric statistical tests (母數 v 無母數統計檢定)

# BMJ小小統計問題(66):Log transformation of data (資料的對數轉換)

# BMJ小小統計問題(91):Non-parametric statistical tests for independent groups: numerical data (獨立樣本之無母數分析:數值資料)

 

6月份公司課程招生中,精彩可期,介紹與報名連結請見留言區。

5/27WS3-SPSS醫學研究統計工作坊:配對研究設計與分析」,圓滿結束。

6/10()AI01-探索ChatGPT、以及AI02-活用ChatGPT招生中。

“AI01課程將帶你了解ChatGPT的基本原理,並學習如何在日常工作或研究中運用它。AI02課程則是進階課程,將帶你深入瞭解如何在研究中活用ChatGPT,包括概念生成、文獻整理,到論文撰寫與審稿回覆等六大場景,及對學術研究的影響。”

6/17()WS1-統合分析研究工作坊:基礎班」、6/18()WS2-統合分析研究工作坊:實戰班」招生中

“帶你從零基礎開始,由淺入深進入系統性綜述/統合分析的世界。有理論,更有實務。”

6/24() WS4-SPSS進階醫學統計:縱貫性研究設計與分析--重複測量分析法改期至7/8()開課

“面對重複定時或不定時收集的研究資料,如何選擇適合的分析方法?這是許多研究者相對陌生的領域,本課程將帶你突破重重迷霧。”


詳細資訊請上匯東華官網/課程報名

精彩可期,歡迎加入!



問題

研究人員描述全國腹裂嬰兒世代一年的結果。採用前瞻性世代研究設計。研究對象是2006年10月至2008年3月間來自英國和愛爾蘭所有28個小兒外科中心的301名腹裂活產嬰兒。該研究目的是描述一年後的結果,比較單純性腹裂(腸道完整、未受損、連續)和複雜性腹裂(腸道穿孔、壞死或閉鎖)的嬰兒。主要結局指標包括靜脈營養持續時間及住院時間[1]。

 

靜脈營養持續時間和住院時間不符合常態分佈。因此,使用無母數檢定對嬰兒組進行比較。複雜腹裂嬰兒靜脈營養持續時間明顯長於單純腹裂嬰兒(中位數51天(四分位差29-92) vs 23天(16-38); P < 0.001)。伴有複雜腹裂患者也需要更長的住院時間 (中位數84天 (47-197) vs 36天(23-57)); P < 0.001)。

 

研究人員得出結論,國家世代提供一個基準,供各中心衡量結果和表現。將腹裂新生兒分為簡單組和複雜組,能夠可靠地預測一年後之預後。

 

下列哪項統計檢定可用於比較單純和複雜腹裂患兒組在靜脈營養持續時間的差異?

a) Kruskal-Wallis test

b) Mann-Whitney U test

c) Wilcoxon rank sum test

d) Wilcoxon signed ranks test

 

 

 


 

答案

Kruskal-Wallis test(答案a)、Mann-Whitney U test(答案b)和Wilcoxon rank sum(答案c)均可用於比較單純性腹裂患兒與複雜性腹裂患兒的靜脈營養持續時間。

詳細說明

之前問題描述如何使用兩種統計方法-母數和無母數檢定-進行統計假設檢定[2] (#BMJ小小統計問題64題)。母數檢定假設被分析的變數在母群體中有一特定的分佈——通常是常態分佈。常態分佈已於之前問題描述[3]。無母數方法對資料在母群體中之分佈不作任何假設,有時被稱為無分佈法(distribution-free)或排序(rank)法。

 

在上述研究中,靜脈營養持續時間不服從常態分佈。因此,採用無母數統計檢定比較單純性和複雜性腹裂患兒靜脈營養持續時間。此兩組嬰兒是互相獨立的,亦即,嬰兒只能屬於一個組。Mann-Whitney U test(答案b)和Wilcoxon rnak sum test(答案c)是無母數檢定,比較兩獨立組別在連續或序位尺度上測量的變數。這些檢定給出相同的P值,因此得出相同的結論。虛無假設顯示,單純腹裂和複雜腹裂患兒組的靜脈營養持續時間在母群體中的分佈相同,即兩組的靜脈營養持續時間中位數在母群體中相等。經統計學檢定,P值<0.001。因此,拒絕虛無假設,支持對立假設,即在母群體中,兩組嬰兒在靜脈營養持續時間的分佈上存在差異。複雜性腹裂患兒的靜脈營養持續時間明顯長於單純性腹裂患兒(51天vs 23天)。

 

Kruskal-Wallis test(答案a)為無母數檢定法,是Mann-Whitney U和Wilcoxon rank sum test之擴展。Mann-Whitney U和Wilcoxon rank sum test比較變數在兩個獨立組別間之分佈,而Kruskal-Wallis test用於比較變數在三個或更多獨立組間的分佈。然而,多數統計套裝軟體允許在只有兩個獨立組時使用Kruskal-Wallis test,得到的P值與使用Mann-Whitney和Wilcoxon rank sum test得到的P值相等。因此,在統計假設檢定方面也能得出相同的結論。

 

在本例中,靜脈營養的持續時間不符合常態分佈。靜脈營養持續時間分佈為偏態,因此採用無母數檢定比較單純性和複雜性性腹裂患兒組。雖然研究人員沒有討論,但資料轉換後可能已滿足母數統計檢定的假設。資料轉換通常為對數變換,以獲得常態分佈[4](#BMJ小小統計問題第66題)。若兩獨立組別進行比較的變數符合常態分佈,則能使用Student’s test [5]( #BMJ小小統計問題第29題)。

 

Wilcoxon signed ranks test(答案d)為一無母數檢定法,用於比較連續或序位變數中的兩個相關組別。兩樣本中之參與者必須配對或成對 [6]。例如,每個參與者在介入前後被測量兩次。或若兩組進行配對,就會有一對參與者,各組一個在年齡和性別等一系列變數進行配對。

 

Reference

[1] Bradnock TJ, Marven S, Owen A, Johnson P, Kurinczuk JJ, Spark P, et al; on behalf of BAPS-CASS. Gastroschisis: one year outcomes from national cohort study. BMJ 2011;343:d6749.

[2] Sedgwick P. Parametric v non-parametric statistical tests. BMJ 2012;344:e1753.

[3] Sedgwick P. The Normal distribution. BMJ 2010;341:c6085.

[4] Sedgwick P. Log transformation of data. BMJ 2012;345:e6727.

[5] Sedgwick P. Independent samples t test. BMJ 2010;340:c2673.

[6] Sedgwick P. Non-parametric statistical tests for two related groups: numerical data. BMJ 2012;344:e2537.

 

#BMJ  #醫學統計  #Parametric analysis  #Non-parametric analysis # Kruskal-Wallis test #Wilcoxon rank sum test #Mann-Whitney U test

2023年5月22日 星期一

統合分析處理出版偏差常見作法

  統合分析處理出版偏差常見作法

  

 

文獻:McClain MB, Callan GL, Harris B, et al. Methods for addressing publication bias in school psychology journals: A descriptive review of meta-analyses from 1980 to 2019. Journal of School Psychology. 2021/02/01/ 2021;84:74-94. doi:https://doi.org/10.1016/j.jsp.2020.11.002

2022-2023 IF=6.033

Publication bias是統合分析中常見問題,可能影響結論的效度(validity)以及概化程度(generalization),也可能導致效果量被過分誇大。本篇研究介紹1980年到2019年初發表於學校心理學重要期刊的所有88篇統合分析結果。其中50%的研究包括灰色文獻,60%研究則採用方法來檢定和校正出版偏差。

-最常見的檢定和校正偏差的方法包括漏斗圖的視覺分析(Visual Examination of a Funnel Plot)Orwin的失敗安全數N(Orwin’s Failsafe N)Egger’s迴歸(Egger’s Regression),以及修剪和填補法(Trim and Fill Procedure)。儘管存在多種可以檢定和校正出版偏差的方法,但這些方法並無廣泛被使用,無任何一種方法在超過20%的研究中被採用。

-有採用出版偏差檢定和校正的文章中,大約一半的研究採用了一種方法,20%的研究採用了兩種方法,7%的研究採用了三種方法,而沒有一個研究採用了所有四種方法。這些方法在最近發表的研究中最為明顯。換言之,近期的研究相比過去的研究,更傾向於使用這些方法來處理出版偏差的問題。可能反映學者對出版偏差問題的有更深認識,並在研究時更加重視。

匯東華:6月份---統合分析研究工作坊👈熱烈報名中!

#meta-analysis #publication bias #Funnel Plot #Orwins Failsafe N #Eggers Regression #Trim and Fill Procedure #匯東華統合分析研究工作坊

 

JAMA Internal Medicine:醫師 vs. ChatGPT對社交媒體上病人問題的回覆,誰更好?

JAMA Internal Medicine :醫師 vs. ChatGPT 對社交媒體上病人問題的回覆,誰更好?   全文連結: https://reurl.cc/Ovk14D 重點:   問題: ChatGPT是否能提供與醫生的回覆同等的品質和同理心?   ...