网站首页 新闻资讯 干货分享 查看文章

Science披露:利用公开数据的低质论文近3年激增,92%来自中国

发布时间:2025-05-27 来源:学点平台编辑

文章来源:得辅学术

近日,Science News报道了一项令人震惊的研究发现:近 3 年来,利用美国健康与营养调查(NHANES)等公开数据库发表的低质量论文数量激增,其中超过90%的论文由中国研究人员贡献。这一现象被认为与“论文工厂”和人工智能(AI)技术的滥用密切相关。

近年来,科学界对利用公共数据集的低质量论文激增现象愈发关注。Science等期刊多次披露相关案例,揭示了这一问题的严重性与复杂性。

2024年,Matt Spick开始注意到,Scientific Reports的同行评议中涌现出大量奇怪的相似论文,而他正是该杂志的副主编。

1.png

这些论文都采用了一个公开的美国数据集:国家健康与营养检查调查(NHANES)。该数据库收集了超过13万人的饮食信息和其他与健康相关的测量数据。

2.png

低质量论文激增的现象与案例

英国萨里大学的统计学家 Spick 表示:"每天都会收到大量高度雷同的论文,有时甚至一天两篇"。

Spick与同事于5月在PLOS Biology上发表了一篇论文,指出近年来利用NHANES数据库撰写的低质论文数量激增,这可能是由被称为 “论文工程 ”的非法赚钱企业带头的,而人工智能(AI)生成的文本的使用则为其提供了便利。Spick表示,这一发现表明利用大型公共卫生数据集的时机已经成熟。

3.png

 

为了更好地了解这些研究的普遍程度,Spick与研究团队利用 NHANES 数据搜索了两个主要的科学论文数据库:PubMed和Scopus,以寻找针对单一关联的研究。

结果发现147种期刊发表了341篇此类论文,包括Scientific Reports、BMC Public Health和BMJ Open等。

2014年至2021年期间,平均每年发表4篇此类论文,但2022年开始迅速增加,激增至190篇(截至2024年10月)。更引人注目的是,2021年后发表的这类论文中,92%的第一作者隶属于中国机构(292/316),在2021年之前发表的论文中,第一作者隶属于中国机构的论文仅占8%。

4.png

到底是哪些人在用NHANES数据库

美国Healsan利用Healsan™医学大数据分析系统做了解析。

目前利用美国NHANES数据库已经发表了17515篇Medline收录的论文,其中2024年就发表了3746篇,果然出现了爆发。

5.png

 

利用美国NHANES数据库发表论文的国家中,中国学者发表了第二多的论文,高达7596篇。

6.png

 

Spick对这个现象的原因进行了分析

公共数据集的易获取性

NHANES等大型公共数据集为研究提供了便利,允许研究者使用已知方法和简单编程语言(如Python或R)处理数据。

然而,这种便利性也被滥用。Spick团队通过简单代码即可从NHANES提取数据并生成多种疾病与健康变量的组合,显示出数据被“工业化”利用的可能。

人工智能的助力

自ChatGPT等AI聊天机器人广泛应用以来,生成可读文本变得更加容易。研究推测,论文作者可能利用AI改写NHANES研究结果,以规避抄袭检测。

这种技术降低了论文生产的成本和难度,助推了低质量论文的激增。

论文工厂的潜在作用

论文工厂是出售论文署名权的商业实体。尽管无法直接证明这些NHANES论文来自论文工厂,但激增的规模和时间点(与AI普及同步)暗示背后可能存在某种协调行为。

学术激励机制的缺陷

当前学术评价体系更注重论文数量而非质量,促使研究者追求快速发表。此外,开放获取期刊通常收取1000美元左右的发表费用,这为低质量论文的发表提供了经济动机。

其他数据集也存在潜在风险

NHANES并非唯一易受滥用的数据集,根据Nature的调查,全球知名生物医学数据库PubMed中超过34万篇论文(约占总量的1%)可能由论文工厂生产,涉及重复图像、虚假数据、无意义引用等特征。这些论文多集中在医学领域,尤其是医院研究人员为晋升需求而批量购买“论文服务”,学术造假已成规模化。

 

应对建议

改进数据使用规范

公共数据集的管理机构应制定更严格的使用指南,要求研究者说明数据选择和分析的合理性,以减少随意性分析。

加强同行评审

期刊应提高对利用公共数据集论文的审查标准,警惕模式化研究和统计滥用。开发自动化工具检测AI生成文本或异常发表模式也可能有所帮助。

提高AI使用的透明度

要求研究者披露AI工具在研究中的使用情况,并制定相关伦理规范,以防止AI被滥用于学术欺诈。

利用公共数据集和AI的低质量论文激增现象,暴露了学术研究在数据开放、AI普及和激励机制方面的双刃剑效应。这一问题不仅导致虚假发现和资源浪费,还可能动摇学术界的公信力。

解决这一问题需要多方协作,包括改进数据管理、加强同行评审、改革激励机制和打击论文工厂。只有通过系统性变革,学术界才能维护研究的真实性和科学进步的可持续性。

 

 微信图片_20250506171128.png


推荐资讯
知网100%国有控股,钱100%给国家了吗?

还有谁不知道知网为 100% 国有控股?是的,在知网副总经理兼新闻发言人肖宏接受光明日报记者采访之前...

我国热点论文数量首次排名世界第一

热点论文是指近两年间发表的,在最近两个月得到大量引用且被引用次数进入本学科前1‰的论...

SCI论文重投的步骤具体有哪些?

投稿SCI,或多或少都会遇到审稿人给出修改意见,要求对论文修改重投。据学点小编了解,目前投稿SC...

学点平台英文查重服务——确保学术诚信,保障稿件安全

在学术研究和出版领域,学术诚信始终是核心价值之一。为了应对日益严峻的学术不端行为,学点平台携手全球领...