切换为使用验证码登录
近日,Science News报道了一项令人震惊的研究发现:近 3 年来,利用美国健康与营养调查(NHANES)等公开数据库发表的低质量论文数量激增,其中超过90%的论文由中国研究人员贡献。这一现象被认为与“论文工厂”和人工智能(AI)技术的滥用密切相关。
近年来,科学界对利用公共数据集的低质量论文激增现象愈发关注。Science等期刊多次披露相关案例,揭示了这一问题的严重性与复杂性。
2024年,Matt Spick开始注意到,Scientific Reports的同行评议中涌现出大量奇怪的相似论文,而他正是该杂志的副主编。
这些论文都采用了一个公开的美国数据集:国家健康与营养检查调查(NHANES)。该数据库收集了超过13万人的饮食信息和其他与健康相关的测量数据。
低质量论文激增的现象与案例
英国萨里大学的统计学家 Spick 表示:"每天都会收到大量高度雷同的论文,有时甚至一天两篇"。
Spick与同事于5月在PLOS Biology上发表了一篇论文,指出近年来利用NHANES数据库撰写的低质论文数量激增,这可能是由被称为 “论文工程 ”的非法赚钱企业带头的,而人工智能(AI)生成的文本的使用则为其提供了便利。Spick表示,这一发现表明利用大型公共卫生数据集的时机已经成熟。
为了更好地了解这些研究的普遍程度,Spick与研究团队利用 NHANES 数据搜索了两个主要的科学论文数据库:PubMed和Scopus,以寻找针对单一关联的研究。
结果发现147种期刊发表了341篇此类论文,包括Scientific Reports、BMC Public Health和BMJ Open等。
2014年至2021年期间,平均每年发表4篇此类论文,但2022年开始迅速增加,激增至190篇(截至2024年10月)。更引人注目的是,2021年后发表的这类论文中,92%的第一作者隶属于中国机构(292/316),在2021年之前发表的论文中,第一作者隶属于中国机构的论文仅占8%。
到底是哪些人在用NHANES数据库
美国Healsan利用Healsan™医学大数据分析系统做了解析。
目前利用美国NHANES数据库已经发表了17515篇Medline收录的论文,其中2024年就发表了3746篇,果然出现了爆发。
利用美国NHANES数据库发表论文的国家中,中国学者发表了第二多的论文,高达7596篇。
Spick对这个现象的原因进行了分析
公共数据集的易获取性
NHANES等大型公共数据集为研究提供了便利,允许研究者使用已知方法和简单编程语言(如Python或R)处理数据。
然而,这种便利性也被滥用。Spick团队通过简单代码即可从NHANES提取数据并生成多种疾病与健康变量的组合,显示出数据被“工业化”利用的可能。
人工智能的助力
自ChatGPT等AI聊天机器人广泛应用以来,生成可读文本变得更加容易。研究推测,论文作者可能利用AI改写NHANES研究结果,以规避抄袭检测。
这种技术降低了论文生产的成本和难度,助推了低质量论文的激增。
论文工厂的潜在作用
论文工厂是出售论文署名权的商业实体。尽管无法直接证明这些NHANES论文来自论文工厂,但激增的规模和时间点(与AI普及同步)暗示背后可能存在某种协调行为。
学术激励机制的缺陷
当前学术评价体系更注重论文数量而非质量,促使研究者追求快速发表。此外,开放获取期刊通常收取1000美元左右的发表费用,这为低质量论文的发表提供了经济动机。
其他数据集也存在潜在风险
NHANES并非唯一易受滥用的数据集,根据Nature的调查,全球知名生物医学数据库PubMed中超过34万篇论文(约占总量的1%)可能由论文工厂生产,涉及重复图像、虚假数据、无意义引用等特征。这些论文多集中在医学领域,尤其是医院研究人员为晋升需求而批量购买“论文服务”,学术造假已成规模化。
应对建议
改进数据使用规范
公共数据集的管理机构应制定更严格的使用指南,要求研究者说明数据选择和分析的合理性,以减少随意性分析。
加强同行评审
期刊应提高对利用公共数据集论文的审查标准,警惕模式化研究和统计滥用。开发自动化工具检测AI生成文本或异常发表模式也可能有所帮助。
提高AI使用的透明度
要求研究者披露AI工具在研究中的使用情况,并制定相关伦理规范,以防止AI被滥用于学术欺诈。
利用公共数据集和AI的低质量论文激增现象,暴露了学术研究在数据开放、AI普及和激励机制方面的双刃剑效应。这一问题不仅导致虚假发现和资源浪费,还可能动摇学术界的公信力。
解决这一问题需要多方协作,包括改进数据管理、加强同行评审、改革激励机制和打击论文工厂。只有通过系统性变革,学术界才能维护研究的真实性和科学进步的可持续性。