JAMA Internal Medicine：醫師 vs. ChatGPT對社交媒體上病人問題的回覆，誰更好？

重點：

問題：ChatGPT是否能提供與醫生的回覆同等的品質和同理心？

結果：在這項對社交媒體論壇隨機抽取的195個病人問題的橫斷面研究中，一個由醫療專業人員組成的團隊針對醫師和ChatGPT在公開社交媒體論壇病人的提問回應進行內容品質以及同理心感受的比較。結果顯示，ChatGPT的回覆被認為優於醫師的回應，在品質和同理心觀感上獲得顯著較高的評價。

意義：人工智能助手可能可以協助醫師草擬對病人問題的回覆，降低醫師的工作壓力和情緒耗竭。

重要性：隨著虛擬醫療的快速擴展，病人訊息的激增導致醫療專業人員的工作量增加和疲勞感加重。人工智能（AI）助手可能有助於草擬回答病人問題的答案，讓臨床醫生審核。

摘要：

目標：

評估2022年11月推出的AI聊天機器人助手（ChatGPT）對病人問題的品質和同理心回覆能力。

設計、場景和參與者：

此為一橫斷面研究，使用去識別化來自公開社交媒體論壇（Reddit’s r/AskDocs）的問題資料庫，隨機抽取2022年10月的195個對話，這些對話中，會有一位取得證照的醫師回答一個公開問題。聊天機器人的回覆為2022年12月22日和23日輸入原始問題產生的（在此之前從未問過問題）。一個由合格醫療專業人員組成的團隊對原始問題及匿名化和隨機排序的醫師和ChatGPT回覆進行三次評估。評價者選擇了“哪個回應更好”，並對“提供的訊息品質”（非常差、差、可接受、好或非常好）和“提供的同理心”（沒有同理心、稍微有、中等同理心、同理心和非常具有同理心）進行評價。平均結果按照1到5的尺度排序，比較醫師與ChatGPT的回覆結果。

結果：

在195個問題和回覆中，評價者在6%（95% CI, 75.0%-81.8%）的585次評估中優先選擇ChatGPT的回覆。平均醫師回覆顯著短於ChatGPT的回覆（52字 vs 211字; P < .001）。
聊天機器人的回覆品質顯著高於醫師的（P < .001）。例如，被評為好或非常好品質（≥ 4）的回覆比例ChatGPT高於醫師（ChatGPT：5%，醫師：22.1%）。亦即聊天ChatGPT的好或非常好品質回覆比例為醫生的3.6倍。
ChatGPT的回覆也被評為比醫師的更具同理心（t = 18.9; P < .001）。被評為具有同理心或非常同理心（≥4）的回覆比例，ChatGPT高於醫師（醫師：6%；ChatGPT：45.1%）。亦即，ChatGPT的有同理心或非常同理心的回覆比例為醫師的9.8倍。

結論：

在此橫斷面研究中，ChatGPT對在線論壇中病人提出的問題可以產生具有品質和同理心的回覆。進一步探索這項技術在臨床場景中的應用具有價值，例如使用聊天機器人來草擬醫師可以編輯的回應。隨機試驗可以進一步評估，若使用AI助手可能會改善回應，降低醫生的耗竭，並改善病人結果。

匯東華統計顧問有限公司

2023年6月3日星期六