科研及高校信息速报

科研及高校信息速报

医学顶刊BMJ指出超三分之一中国癌症论文被疑出自论文工厂

2026-03-14

医学顶刊BMJ指出超三分之一中国癌症论文被疑出自论文工厂

GBhouse专用扉页.gif



BMJ报告可信度与潜在影响总结



1.BMJ研究发布警示:全球约10%癌症论文存“论文工厂”嫌疑;

2. 对中国科研工作者的潜在影响:投稿门槛与信任成本或将提升;

3. 科研诚信的深层反思:从被动应对到主动建设。

image.png


报告总述


2026130日,《英国医学杂志》(BMJ)发表的一项研究,在全球生命科学与医学领域的硕博研究生、青年教师群体中引发了不小的震动。

这项研究称,通过机器学习模型筛查发现,19992024年间全球发表的约260万篇癌症研究论文中,约26万篇表现出与论文工厂作品相似的文本特征,占比近10%;而其中来自中国机构的相关疑似论文占比约36%

这一数据让不少正在从事癌症相关研究的青年科研人员倍感焦虑——自己的研究成果是否会被误判,学术声誉是否会因此受到牵连,成为了他们热议的核心话题。


BMJ 原文核心信息解读

这篇引发争议的报道是2026130日发表在 BMJ 上的《Machine learning based screening of potential paper mill publications in cancer research: methodological and cross sectional study》,由澳大利亚昆士兰科技大学 Adrian Barnett 团队主导完成。

该研究的核心目标是训练并验证基于 BERT 架构的机器学习模型,以此区分癌症领域中疑似出自论文工厂的论文与真实研究论文。研究团队从Retraction Watch数据库筛选出 2202 篇标记为“Paper Mill”的癌症研究论文用于模型训练,同时从学术诚信专家数据集获取 3094 篇论文用于外部验证,模型最终实现了91%的识别准确率,敏感性达87%,特异性为96%-99%

不过,研究中提及的潜在论文工厂出版物并非等同于学术造假,这类论文是由论文工厂批量生产的产物,仅仅替换研究领域、基因或细胞系名称,就产出看似结构完整的论文。研究只是通过文本特征标记出这类疑似论文,并未对每篇论文的科研真实性进行逐一验证。

image.png

然而该研究的结论也存在局限性

其一,研究仅通过论文的标题和摘要进行文本特征分析,并未深入核查论文的实验数据、原始研究记录,部分真实研究可能因写作规范统一、表述模式相近被误标记为疑似论文工厂产物;

其二,研究中的 “潜在论文工厂出版物” 只是基于文本特征的推测,并非经过人工核实的学术不端定论。

对比此前同类研究,2025 年一项针对生物医学论文的研究显示,全球论文工厂产物占比约 5%,本次研究的占比更高,可能是因为模型识别能力提升,也可能是因为论文工厂现象确实在扩大。

疑似论文工厂论文的典型特征拆解生

研究中被标记的中国癌症领域疑似论文工厂产物,呈现出明显的模板化特征。

比如一篇 2023 年发表在某国际期刊的中国癌症研究论文,标题为《XX 基因在肺癌中的表达及临床预后意义》,其摘要的表述模式为 “本研究检测了 XX 例肺癌组织中 XX 基因的表达水平,分析其与临床病理参数的相关性,结果显示 XX 基因高表达与肺癌患者不良预后相关,提示 XX 基因可能成为肺癌治疗的潜在靶点。这类表述在多篇被标记的论文中重复出现。

此外,这些论文的实验描述也高度雷同,比如 “采用实时荧光定量 PCR 检测基因表达,采用免疫组化检测蛋白表达” 的实验方法描述几乎完全一致,部分论文的实验数据甚至存在数值重复的情况。

同时,这类论文的作者合作模式也较为异常,常常出现多个不同地区、不同研究机构的作者合作,但研究内容却高度聚焦于同一小领域,缺乏合理的科研合作逻辑。

image.png


对中国医学研究者的潜在影响


这一报道对中国医学领域的硕博研究生和青年教师产生了多方面的潜在影响。

image.png


首先在论文投稿方面,国际期刊可能会对中国研究者的癌症研究论文进行更严格的审查,要求提供更多的原始实验数据、研究记录,甚至增加额外的同行评审环节,这可能会延长论文的发表周期,增加投稿难度。

其次在科研项目申请方面,国内的科研基金评审机构可能会更关注申请者已发表论文的真实性,要求申请者提供论文的原始研究数据,以证明研究未涉及论文工厂产物。

此外,这一报道也可能影响中国医学研究者的国际学术声誉,在国际学术合作中,国外研究者可能会对中国研究者的研究成果产生质疑,增加合作的沟通成本。

科研诚信建设的反思与建议


image.png

针对这一报道带来的问题,医学领域的硕博研究生和青年教师需要从多方面规避风险:首先,坚持开展真实的科学研究,拒绝使用论文工厂的服务,不参与任何学术不端行为;其次,在论文写作中尽量避免模板化表述,提升论文的原创性,在描述研究方法、结果时,结合自身研究的实际情况进行个性化表述;同时,要学会识别论文工厂的特征,在引用文献时,避免引用疑似论文工厂产物的研究,以免影响自身研究的可信度。

对于学术圈而言,需要加强科研诚信建设:高校和科研机构要加强对科研人员的诚信教育,规范论文写作和发表流程;期刊机构要完善论文审查机制,增加对论文原始数据的核查环节,建立论文工厂产物的黑名单制度;此外,相关部门可以建立学术诚信档案,对涉及学术不端的研究者进行记录,加大对学术不端行为的处罚力度。 


参考文献


1. Scancar, B., Byrne, J. A., Causeur, D., & Barnett, A. G. (2026). Machine learning based screening of potential paper mill publications in cancer research: methodological and cross sectional study.BMJ (Clinical research ed.), 392, e087581. https://doi.org/10.1136/bmj-2025-087581                                    

Miryam N. (2025). Low-quality papers are flooding the cancer literature — can this AI tool help to catch them? . nature (news) .https://doi.org/10.1038/d41586-025-02906-y                                                             

2. Parker, L., Boughton, S., Bero, L., & Byrne, J. A. (2024). Paper mill challenges: past, present, and future.Journal of clinical epidemiology, 176, 111549. https://doi.org/10.1016/j.jclinepi.2024.11154                                    

3. Kincaid E. (2023) Hindawi reveals process for retracting more than 8,000 paper mill articles. Retraction Watch. https://retractionwatch.com/2023/12/19/hindawi-reveals-process-for-retracting-more-than-8000-paper-mill-articles/