1. PLOS和Frontier不在考来自虑纯公共数据文章

![]()
(图1 PLOS出版社关于收紧纯公共数据库“造纸厂”论文发表的声明[8])

![]()
(图2 Frontier 出版社关于收紧“造纸厂”论文发表的声明[9])
一场针对公共健康数据研究的“信任危机”正在学术出版界蔓延。PLOS和Frontiers等主流出版商于9月宣布,将自动拒收大部分单纯基于NHANES等公共数据库的投稿,除非研究者能完成额外的验证工作。这项硬性规定是为了从根本上提升研究的可靠性,目前已有更多期刊加入了此行列[1-2]。其实在最近Science关于《基于开放健康数据的论文面临禁令/Papers based on open health data face bans》报道之前,Nature也已经进行了《基于公共卫生数据的低质量论文充斥着科学文献/Low-quality papers based on public health data are flooding the scientific literature》。

![]()
(图3 不限于关于PLOS 和 Frontiers将自动拒绝纯数据发表的文章[1])
2. Science关于收紧基于公共数据库相关研究文章
据《Science》报道,PLOS与Frontiers等国际出版机构正全面收紧基于公共健康数据库(如美国NHANES)的研究文章的接收标准。此举旨在应对此类研究中日益凸显的数据质量问题与可重复性危机,并已引发多本期刊的效仿[3]。


![]()
(图4 Science报道不限于关于PLOS 和 Frontiers自动拒绝纯数据发表的文章[1])
在据Science报道,关于PLOS与Frontiers等开放获取出版集团已开始大规模拒收那些仅依赖公共健康数据(如NHANES)而未进行外部验证的研究论文。BMJ紧随其后在15号也于发文呼应此议题,反映出国际顶刊正协同提升此类研究的可靠性标准。此举预计将显著优化基于NHANES等数据库的学术论文质量,推动健康数据研究的科学严谨性[4]。

![]()
(图5 BMJ报道期刊正在自动拒绝公共卫生数据集论文以打击“论文造纸厂”[4])
3. Nature关于基于公共数据低质量文献的报道

![]()
(图6 关于基于公共数据库发表低质量文章的报道[5])
一项分析发现,来自五个大型开放获取健康数据库(NHANES/MIMIC/SEER/TCGA/Dryad,其实GEO/FAERS/GBD也牵涉其中)的数据被用来生成数千篇质量差、公式化的论文。其作者表示,出版物的激增可能表明人们使用大型语言模型(LLM)来大规模生产学术文章,甚至是造纸厂(批量生产论文的公司—“重复、低质、无验证”的文章,甚至成为部分论文代写机构的“快速发稿模板”。)利用了这些数据库。
人工智能与低质量生物医学研究论文的爆炸式增长有关研究结果于 7 月 9 日作为预印本发布在 medRxiv 上1,遵循早期研究2这突显了使用美国国家健康和营养检查调查(NHANES)数据的此类论文的爆炸式增长。最新分析指出,越来越多的研究使用来自其他大型健康数据库的数据,包括英国生物样本库和美国食品和药物管理局的不良事件报告系统(FAERS),该系统记录了药物的副作用。
2021 年至 2024 年间,使用这些数据库数据的论文数量从约 4,000 篇增加到 11,500 篇—根据之前的发表趋势,比预期的论文多出约 5,000 篇[5-7]。
4. 关于各公共数据库发表论文的个人见解供大家参考
最近看到Science/Nature/PLOS/ Frontier/BMJ关于约束利用公共数据库发快速发表低质量文章(“造纸厂”),挺有感触的。其实这类数据本身就有局限,比如横断面设计,因果推断上本来就要非常谨慎。
现在不少分析依赖现成的R包或流程,虽然方便,但如果不去理解方法背后的前提,也不做额外验证,很容易产出大量模式相近却不够扎实的文章。这对独立研究者来说,其实反而提高了辨别和创新的门槛。
在我们平均科研成绩时候,往往注重的是SCI数量,影响因子,分区。不少研究工作人员,可能一年能够出几篇,甚至几十篇(奇人甚至更多),这种论文快速生成—难道不是“造纸厂”吗?同时,基础研究等需要长期投入的科研项目,可不到应该的重视,都想着快速出成果,没有厚集,哪有薄发?
[1]https://librarylearningspace.com/journal-publishers-announce-policies-on-open-health-data-sets-at-the-risk-of-suspect-research/
[2] https://zhuanlan.zhihu.com/p/1963588641872917070
[3]O'Grady C. Papers based on open health data face bans. Science. 2025 Oct 16;390(6770):222-223. doi: 10.1126/science.aed1020IF:45.8 Q1 . Epub 2025 Oct 16. PMID: 41100619.
[4]https://www.bmj.com/content/391/bmj.r2170/article-info
[5]https://www.nature.com/articles/d41586-025-02241-2
[6]Suchak T, Aliu AE, Harrison C, Zwiggelaar R, Geifman N, Spick M. Explosion of formulaic research articles, including inappropriate study designs and false discoveries, based on the NHANES US national health database. PLoS Biol. 2025 May 8;23(5):e3003152. doi: 10.1371/journal.pbio.3003152IF:7.2 Q1 . PMID: 40338847; PMCID: PMC12061153.
[7]https://www.medrxiv.org/content/10.1101/2025.07.07.25331008v1
[8]https://theplosblog.plos.org/2025/09/updates-to-plos-retrospective-health-database-editorial-policy/
[9]https://www.frontiersin.org/news/2025/09/15/cutting-through-fast-churn-science-how-frontiers-raised-the-bar