每經(jīng)網(wǎng)首頁(yè) > 今日?qǐng)?bào)紙 > 正文

AI催生生物醫(yī)學(xué)科研危機(jī)？頂尖科學(xué)家差點(diǎn)被AI假文獻(xiàn)蒙騙

每日經(jīng)濟(jì)新聞 2026-06-17 19:38:37

每經(jīng)記者｜林姿辰每經(jīng)編輯｜黃博文

2026年5月，《柳葉刀》刊發(fā)的一篇“AI（人工智能）引文造假”文章（correspondence，通訊稿件），在中國(guó)的醫(yī)學(xué)科研圈火了。

基于對(duì)PubMed Central（美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館旗下的免費(fèi)生物醫(yī)學(xué)全文檔案庫(kù)）收錄的約250萬(wàn)篇生物醫(yī)學(xué)論文開(kāi)展的篩查，這篇文章指出，過(guò)去幾年生物醫(yī)學(xué)論文參考文獻(xiàn)造假率漲幅超12倍。2023年每萬(wàn)篇論文約出現(xiàn)4條偽造參考文獻(xiàn)，到2026年初達(dá)到每萬(wàn)篇56.9條。

有意思的是，該項(xiàng)研究牽頭人Maxim Topaz不僅是哥倫比亞大學(xué)護(hù)理學(xué)院副教授、醫(yī)療AI研究員，還是全球前2%頂尖科學(xué)家。但即便是這位常年和AI打交道的專家，也曾在評(píng)論寫作中被一篇AI生成的虛假文獻(xiàn)“?！边^(guò)。

對(duì)此，人們能做什么？《每日經(jīng)濟(jì)新聞》記者（以下簡(jiǎn)稱NBD）就此專訪了Maxim Topaz。

虛假引文遍布各類文獻(xiàn)

NBD：是什么契機(jī)或經(jīng)歷，讓你開(kāi)始關(guān)注生物醫(yī)學(xué)論文中的引文造假問(wèn)題？

Maxim Topaz：一切源于我自身的一次“驚險(xiǎn)經(jīng)歷”。當(dāng)時(shí)，我借助人工智能聊天工具，為一篇擬投向期刊的評(píng)論潤(rùn)色。我本身從事人工智能研究，清楚人工智能存在“幻覺(jué)”問(wèn)題，因此特意核對(duì)了所有引文，確保內(nèi)容準(zhǔn)確。

即便經(jīng)過(guò)多輪修改與自查，期刊編輯還是就其中一篇參考文獻(xiàn)提出了質(zhì)疑。原來(lái)這款人工智能工具悄悄植入了一條虛假文獻(xiàn)，而我此前的核查并未發(fā)現(xiàn)。

這件事讓我深受觸動(dòng)。比起失誤本身，更值得警惕的是背后的隱患：連常年和人工智能打交道的專業(yè)人士都會(huì)“中招”，普通研究者自然也難以幸免。于是我萌生了調(diào)研的想法。

此前，從未有人統(tǒng)計(jì)過(guò)虛假引文最終流入經(jīng)過(guò)同行評(píng)審、正式發(fā)表文獻(xiàn)的比例，而參考文獻(xiàn)是整個(gè)科學(xué)體系的根基。一旦引文失去可信度，整個(gè)科研大廈都會(huì)搖搖欲墜。我們團(tuán)隊(duì)正是為了填補(bǔ)這一研究空白，開(kāi)展了此次調(diào)研。

NBD：你同時(shí)任職于哥倫比亞大學(xué)護(hù)理學(xué)院與數(shù)據(jù)科學(xué)研究所，這種跨學(xué)科背景對(duì)搭建這套自動(dòng)化引文核驗(yàn)系統(tǒng)起到了哪些關(guān)鍵作用？團(tuán)隊(duì)在研發(fā)過(guò)程中遇到的最大技術(shù)難題是什么？

Maxim Topaz：臨床醫(yī)學(xué)與數(shù)據(jù)科學(xué)兩大領(lǐng)域的專業(yè)能力缺一不可。臨床醫(yī)學(xué)知識(shí)能幫助團(tuán)隊(duì)判斷哪些問(wèn)題會(huì)造成實(shí)際影響，同時(shí)掌握不同細(xì)分領(lǐng)域正規(guī)引文的特征，以此區(qū)分普通引文錯(cuò)誤和惡意造假。數(shù)據(jù)科學(xué)技術(shù)則讓大規(guī)模自動(dòng)化核驗(yàn)成為可能，徹底擺脫人工核查的局限。

研發(fā)過(guò)程中最大的技術(shù)難題是誤判問(wèn)題。本次需核驗(yàn)的參考文獻(xiàn)量非常大，哪怕系統(tǒng)的誤判率極低，也會(huì)產(chǎn)生海量錯(cuò)誤預(yù)警信息。我們面臨的核心挑戰(zhàn)是精準(zhǔn)區(qū)分蓄意造假、無(wú)心筆誤，以及標(biāo)題簡(jiǎn)寫等正常格式問(wèn)題。

對(duì)此，團(tuán)隊(duì)搭建了多層級(jí)核驗(yàn)流程，其中包含大語(yǔ)言模型初篩環(huán)節(jié)，并邀請(qǐng)獨(dú)立人工審核人員對(duì)結(jié)果進(jìn)行校驗(yàn)，最終系統(tǒng)準(zhǔn)確率達(dá)到91%。在海量數(shù)據(jù)下打造一套可靠、可信的核驗(yàn)系統(tǒng)，是整個(gè)項(xiàng)目最難攻克的一關(guān)。

NBD：本次核查覆蓋約250萬(wàn)篇生物醫(yī)學(xué)論文、1.25億條參考文獻(xiàn)，為何選擇開(kāi)展如此大規(guī)模的分析？業(yè)內(nèi)此前對(duì)引文造假的認(rèn)知，和你們調(diào)研得出的實(shí)際情況存在多大差距？

Maxim Topaz：之所以開(kāi)展大規(guī)模調(diào)研，是因?yàn)閱纹撐牡囊脑旒侔l(fā)生率本就偏低，僅憑個(gè)別案例無(wú)法得出可靠結(jié)論。我們本次共核查2471758篇開(kāi)放獲取論文、超過(guò)1.25億條參考文獻(xiàn)，只有這樣才能統(tǒng)計(jì)出造假問(wèn)題的整體發(fā)生率，更重要的是梳理出其長(zhǎng)期變化趨勢(shì)。

業(yè)內(nèi)過(guò)往認(rèn)知與現(xiàn)實(shí)情況相差極大。此前，大家普遍認(rèn)為引文造假只是個(gè)別作者品行不端，或是寫作疏忽導(dǎo)致的小眾問(wèn)題。但數(shù)據(jù)顯示，虛假引文如今已遍布各類生物醫(yī)學(xué)文獻(xiàn)。自2023年至今，引文造假率漲幅超12倍。在本次核查開(kāi)展時(shí)，98.4%存在造假引文的論文既未被更正，也未被撤稿。簡(jiǎn)言之，這一問(wèn)題的嚴(yán)重程度、整改滯后性都遠(yuǎn)遠(yuǎn)超出了行業(yè)以往的判斷。

綜述類論文是引文造假重災(zāi)區(qū)

NBD：為何引文造假率從2024年年中開(kāi)始急劇攀升？在你看來(lái)，主要誘因是人工智能、論文代寫產(chǎn)業(yè)鏈，還是期刊評(píng)審流程存在漏洞？

Maxim Topaz：時(shí)間節(jié)點(diǎn)很有指向性。大型語(yǔ)言模型在2022年末至2023年開(kāi)始全面普及，而生物醫(yī)學(xué)論文從投稿到發(fā)表通常需要100天至200天。因此，借助人工智能輔助撰寫的論文，從2024年年中起開(kāi)始大量出現(xiàn)在美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館數(shù)據(jù)庫(kù)中。這也恰好是造假率驟增的轉(zhuǎn)折點(diǎn)。

需要說(shuō)明的是，本次研究?jī)H證實(shí)了問(wèn)題的存在，并未直接界定成因。論文代寫產(chǎn)業(yè)泛濫、期刊索引規(guī)則與評(píng)審機(jī)制的變化，同樣推高了造假比例，且各類因素相互疊加：正是因?yàn)槠诳狈τ行У暮蓑?yàn)環(huán)節(jié)，人工智能生成或代寫產(chǎn)業(yè)鏈產(chǎn)出的虛假引文才得以順利發(fā)表。

因此，無(wú)法將問(wèn)題歸咎于單一原因。客觀來(lái)講，人工智能讓編造引文變得輕而易舉，而現(xiàn)行的審核機(jī)制原本就沒(méi)有針對(duì)這類造假設(shè)計(jì)排查手段。

NBD：和以往人為編造的引文相比，人工智能生成的虛假引文有哪些核心差異？又會(huì)帶來(lái)哪些更廣泛的影響？

Maxim Topaz：二者最本質(zhì)的區(qū)別在于錯(cuò)誤類型。過(guò)去的引文問(wèn)題多是粗心導(dǎo)致的疏漏，比如頁(yè)碼寫錯(cuò)、文獻(xiàn)觀點(diǎn)引用有誤，但被引用的文章本身是真實(shí)存在的。

如今人工智能生成的引文對(duì)應(yīng)的文獻(xiàn)完全子虛烏有。這些假引文格式規(guī)范，署上真實(shí)且業(yè)內(nèi)知名的研究者姓名，貼合論文主題，發(fā)表日期也設(shè)置得合情合理，足以蒙混過(guò)初步檢查，常規(guī)的同行評(píng)審也往往難以識(shí)破。

其深遠(yuǎn)危害在于，引文本是科研人員驗(yàn)證研究結(jié)論的核心依據(jù)，如今大規(guī)模造假已成現(xiàn)實(shí)。問(wèn)題從“引文內(nèi)容有誤”演變?yōu)椤耙梦墨I(xiàn)根本不存在”，這不再是證據(jù)質(zhì)量下降，而是直接切斷了科學(xué)論證的證據(jù)鏈。

NBD：在核查過(guò)程中，你們發(fā)現(xiàn)過(guò)最極端、最令人震驚的引文造假案例是什么？看到這些案例時(shí)，你有何感受？

Maxim Topaz：最典型的案例是2025年某開(kāi)放獲取腫瘤學(xué)期刊上一篇聚焦細(xì)分外科領(lǐng)域的論文。在該論文經(jīng)核驗(yàn)的30條參考文獻(xiàn)中，有18條為造假內(nèi)容。這些假引文精準(zhǔn)匹配論文研究方向，作者均為該領(lǐng)域真實(shí)專家，發(fā)表時(shí)間也集中在2023年至2024年。

還有一個(gè)現(xiàn)象同樣值得警惕。在某期刊一年內(nèi)刊發(fā)的11篇論文中，反復(fù)出現(xiàn)兩位相同署名的作者，這些論文包含15條虛假引文，且涉及多個(gè)互不相關(guān)的前沿研究領(lǐng)域。

比起單篇問(wèn)題論文，我更擔(dān)憂這類批量造假的現(xiàn)象。更讓人不安的是，這些問(wèn)題論文一直留在公開(kāi)文獻(xiàn)庫(kù)中，還會(huì)被其他論文繼續(xù)引用，卻沒(méi)有任何標(biāo)注警示、更正說(shuō)明，行業(yè)也未對(duì)此質(zhì)疑。

NBD：綜述類論文的引文造假率比其他類型論文高出約57%，而綜述又是臨床診療指南的制定基礎(chǔ)。為何綜述類論文尤其容易遭到人工智能驅(qū)動(dòng)的引文造假侵襲？

Maxim Topaz：多重因素疊加，讓綜述類論文成為造假重災(zāi)區(qū)。首先，綜述的參考文獻(xiàn)列表篇幅更長(zhǎng)，虛假引文更容易渾水摸魚(yú)；其次，撰寫綜述需要梳理、歸納大量文獻(xiàn)，這也是研究者最常借助人工智能輔助的環(huán)節(jié)，而該工作場(chǎng)景恰恰極易催生虛假引文。

此外，綜述處于整個(gè)科研證據(jù)鏈的上游，各類系統(tǒng)評(píng)價(jià)依托綜述撰寫，臨床診療指南又以系統(tǒng)評(píng)價(jià)為依據(jù)。我們的數(shù)據(jù)顯示，綜述類論文每萬(wàn)篇的引文造假數(shù)為16.7條，其他類型論文為10.6條。這約57%的差距帶來(lái)的危害遠(yuǎn)比數(shù)字本身更大，綜述中的造假內(nèi)容不會(huì)止步于此，還會(huì)層層傳導(dǎo)，最終影響臨床醫(yī)生和政策制定者依賴的核心證據(jù)體系。

若不及時(shí)管控，“污染”將難逆轉(zhuǎn)

NBD：虛假引文會(huì)如何誤導(dǎo)臨床決策、威脅患者安全？醫(yī)學(xué)界是否低估了這類現(xiàn)實(shí)風(fēng)險(xiǎn)？

Maxim Topaz：虛假引文會(huì)沿著完整的證據(jù)鏈產(chǎn)生負(fù)面影響。臨床診療指南依托系統(tǒng)評(píng)價(jià)制定，目前已有證據(jù)證實(shí)，部分代寫論文已被納入撰寫指南所用的系統(tǒng)評(píng)價(jià)中。如果一份指南引用的論文本身含有大量虛假引文，那么其提出的治療方案就失去了應(yīng)有的科學(xué)支撐。

需要明確的是，我們并未追蹤患者的實(shí)際診療結(jié)果，因此無(wú)法量化虛假引文直接造成的醫(yī)療傷害，也不會(huì)妄下此類論斷。但現(xiàn)有科研證據(jù)體系存在結(jié)構(gòu)性風(fēng)險(xiǎn)，且這一風(fēng)險(xiǎn)確實(shí)被醫(yī)學(xué)界低估了。

已有系統(tǒng)評(píng)價(jià)發(fā)現(xiàn)，醫(yī)學(xué)論文中約四分之一的參考文獻(xiàn)存在各類錯(cuò)誤，這足以說(shuō)明，參考文獻(xiàn)核驗(yàn)并非同行評(píng)審的常規(guī)環(huán)節(jié)。連普通的引文錯(cuò)誤都無(wú)法全面排查，想要識(shí)破精心偽裝的人工智能造假引文，自然難上加難。

NBD：你們的研究為行業(yè)提出了4條改進(jìn)建議。在你看來(lái)，目前哪一條建議最為緊迫，卻又最難落地？主要阻礙是什么？

Maxim Topaz：當(dāng)下最緊迫的是第一條建議，即期刊出版商需在同行評(píng)審啟動(dòng)前，將自動(dòng)化引文核驗(yàn)納入論文投稿流程。目前相關(guān)技術(shù)已經(jīng)成熟，落地障礙并非技術(shù)問(wèn)題，而是體制與成本問(wèn)題。出版商需要投入資金、調(diào)整沿用已久的工作流程，這也是該建議看似可行，推進(jìn)起來(lái)卻阻力重重的原因。

而落地難度最大的是對(duì)已發(fā)表文獻(xiàn)開(kāi)展回溯清理。對(duì)數(shù)百萬(wàn)篇存量論文逐一篩查、發(fā)布更正內(nèi)容，需要高昂成本，且沒(méi)有任何一家機(jī)構(gòu)愿意全權(quán)負(fù)責(zé)這項(xiàng)工作，同時(shí)學(xué)界也缺乏動(dòng)力去復(fù)盤、修正已經(jīng)刊發(fā)的論文。

總結(jié)來(lái)說(shuō)，當(dāng)下最該立刻推進(jìn)的是在投稿環(huán)節(jié)落實(shí)事前引文核驗(yàn)，而最難完成的是清理早已被污染的存量學(xué)術(shù)文獻(xiàn)。

NBD：作為率先系統(tǒng)性揭露生物醫(yī)學(xué)領(lǐng)域引文造假危機(jī)的學(xué)者，未來(lái)3年至5年，你對(duì)整個(gè)行業(yè)最大的擔(dān)憂是什么？你呼吁全球科研界、期刊出版商及監(jiān)管機(jī)構(gòu)立刻采取哪一項(xiàng)行動(dòng)？

Maxim Topaz：我最大的擔(dān)憂是形成惡性循環(huán)。一篇含虛假引文的論文發(fā)表后，會(huì)被后續(xù)新論文繼續(xù)引用，甚至被用于訓(xùn)練新一代人工智能模型，進(jìn)而讓造假內(nèi)容不斷傳播、放大。若不及時(shí)管控，文獻(xiàn)庫(kù)被污染的速度會(huì)遠(yuǎn)遠(yuǎn)超過(guò)清理修復(fù)的速度。

我向全球科研界、出版商和監(jiān)管機(jī)構(gòu)呼吁，立刻落實(shí)一項(xiàng)舉措：將自動(dòng)化引文核驗(yàn)定為同行評(píng)審前的標(biāo)準(zhǔn)流程。

直白來(lái)講，問(wèn)題的根源是未經(jīng)核查的人工智能生成內(nèi)容流入永久學(xué)術(shù)文獻(xiàn)。我們并非要禁止使用人工智能工具，而是要把核驗(yàn)環(huán)節(jié)嵌入整個(gè)工作流程。人工智能本身并非隱患，真正的風(fēng)險(xiǎn)是任由未經(jīng)審核的人工智能產(chǎn)出內(nèi)容堂而皇之地進(jìn)入學(xué)術(shù)體系。

封面圖片來(lái)源：每經(jīng)媒資庫(kù)AI圖

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

前5月高技術(shù)領(lǐng)域投資穩(wěn)步增長(zhǎng) 航天企業(yè)：過(guò)去找資本，現(xiàn)在資本“找上門”

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

AI版支付寶來(lái)了，巨頭們?yōu)楹螤?zhēng)相搶占超級(jí)入口

相關(guān)文章