統計閒磕牙:《Nature》:最常被引用的3種統計學方法
《Nature》:最常被引用的3種統計學方法
The top 100 papers
Nature explores the most-cited research of all time.[1]
2014年Nature發表一篇收錄在WoS資料庫,從1900年迄調查日期最受歡迎的100篇論文。雖然是2014年的文章,不過還是值得參考。本篇擷取針對統計學論文的前三名跟大家分享。大家可以看看是否跟心中的臆測相同😊
50年前,Eugene Garfield發表科學引文索引(SCI),是第一個追蹤科學文獻引文的系統方法。為了紀念,《Nature》要求現在擁有SCI的Thomson Reuters列出有史以來被引用次數最多的100篇論文(完整的列表文章網站)。搜索涵蓋Web of Science的所有內容,包括SCI線上版本、社會科學、藝術和人文學科、會議記錄和一些書籍的資料庫。時間範圍從1900年至今發表的論文。
這項調查揭示一些令人驚訝的事實,尤其是需要大於12,119次的引用才能進入前100名,而許多世界上廣為人知的論文都沒有進入。絕大多數是在特定領域不可欠缺的實驗方法或軟體。現就統計學方法的前三名論文跟大家分享。
統計學論文
第一名:排名第11,1958提出的Kaplan-Meier Method。
#11 Kaplan-Meier Method
最常被引用的統計論文(排名11)是1958年由美國統計學家Edward Kaplan and Paul Meier發表的一篇論文[2]。該論文幫助研究人員發現一個群體的存活模式,例如臨床試驗參與者。即為Kaplan-Meier估計法。這篇論文曾是一篇冷門之作,幾乎沒有人引用,直到上世紀70年代電腦計算能力突飛猛進,讓非專業人士也能使用,因此廣為普及。
第二名:排名第24,1958提出的Cox regression。
第二名(排名24)是英國統計學家David Cox 於1972年發表的論文[3],該論文擴展這些存活分析的範圍,加入其他影響存活因素的探討,例如性別和年齡。簡單易用也加速該論文的普及。
第三名:排名第29,1986年提出的Bland–Altman plot。
第三名(排名29)是英國統計學家Martin Bland and Douglas介紹將兩種測量方法的一致性可視化的技術[4],現稱為Bland–Altman plot。由於通俗易懂,此後一直被廣為引用。
統計組中最古老和最年輕的論文處理的是同一個問題——資料的多重比較——但它們來自迥異的科學情境。當需要比較多組母群體時,可以使用美國統計學家David Duncan 的1955年的論文(第64名)[5]。但是第59名,由以色列統計學家Yoav Benjamini和Yosef Hochberg於·1995提出的控制錯誤發現率,適合來自基因組學(genomics)或神經影像(neuroscience imaging)等領域的資料[6]。可以進行成百上千的比較,這是Duncan幾乎無法想像的。正如Efron的觀察:“故事是電腦慢慢地,然後又慢慢地,對統計理論和實務產生影響。” (“The story is one of the computer slowly, then not so slowly, making its influence felt on statistical theory as well as on practice.”)
參考文獻
[1] http://www.nature.com/news/the-top-100-papers-1.16224
[2] Kaplan EL, M.P. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association 53, 25 (1958).
[3] Cox, D. Regression Models and Life-Tables. Journal of the Royal Statistical Society 34, 34 (1972).
[4] Bland, J.M. & Altman, D.G. Statistical methods for assessing agreement between tw9o methods of clinical measurement. Lancet 1, 307-10 (1986).
[5] Duncan, D. B. Multiple range and multiple F tests. Biometrics 11, 1–42 (1955).
[6] Benjamini, Y. & Hochberg, Y. J. R. Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Stat. Soc. B 57, 289–300 (1995).
#Nature
#the most-cited research on statistics
#Kaplan-Meier Method
#Cox regression
#survival analysis