复制科学:仅美国每年就浪费 $ 280 亿美元

信息表

为什么?因为研究无法复制。

如果一项科学研究无法被复制,那么它还可行吗?

科学研究是出了名的难以复制。Plos Biology》杂志的一项研究显示,每年约有10亿至280亿美元被用于无法复制的研究。而这仅仅是在美国。将这些数字推算到全世界,我们就会面临一个真正的问题。

近年来,随着计算能力的提高、云软件的广泛应用以及数据集的增加,科学家们越来越明显地发现,即使使用相同的数据集,也无法得出相同的结果。如果无法复制研究并得出相同的结论,就会损害科学家和科学本身的公信力。

这样做的后果可能很严重。如果结果不可信,那么科学和科学过程的本质就会受到质疑。在新技术如 机器学习 人工智能和云计算的兴起,促使人们质疑这些强大的、可能改变生活的技术的价值,并可能灌输某种程度的不信任。在本文中,我们将探讨为什么这个问题如此普遍,以及我们该如何解决这个问题。

如果不采取行动,问题将继续恶化

复制危机 "并不是一个新问题。事实上,它一直是一个普遍存在的问题。 数十年来,社会科学一直是社会科学的重要组成部分。杰里-奥尔德(Jerry Alder)发表了一篇题为 "改革:社会科学能否为社会发展服务 "的文章。 科学家自救? 细节。但是,这种不可复制的研究模式绝不仅限于 在社会科学界,这也是制药业的一个主要问题。

2005 年,斯坦福大学健康研究与政策教授约翰-伊奥尼迪斯(John Ioannidis)撰写了一篇论文,首次引起了科学界对这一问题的关注。他的论文发表在《PLoS Medicine》杂志上,题为 "为什么大多数发表的研究结果都是错误的",揭示了研究方法、偏差和研究设计的缺陷。他的结论是:"模拟显示,在大多数研究设计和环境中,研究声称为假的可能性要大于为真的可能性"。

他的论文产生了强大的影响,鼓励公司重新审视自己的工作。2011 年,制药巨头拜耳公司发现,只有四分之一的研究具有可重复性。同年,时任生物制药公司安进(Amgen)肿瘤部门主管的格伦-贝格利(Glenn Begley)着手重现了前十年发表的53篇论文的结果,这些论文奠定了肿瘤学的基础。即使使用与原文完全相同的数据集,贝格利也只能复制其中六篇论文的结果。

不可忽视不可再现性

工作的复制是 科学过程--研究结果必须是 模式进行确认。

一次结果可能是错误,也可能是侥幸。第二次在相同条件下得到同样的结果,仍可能被认为是巧合,也可能是偏差。但第三次,我们就有戏了。

这一原则在科学中根深蒂固,以至于成为实验室指导方针的一部分,并被传授给所有新晋科学家:至少需要连续三个批次才能对药品进行验证。批次数量取决于生产过程中的风险程度。如果对生产过程知之甚少,就需要更多的统计数据来证明生产过程的一致性足以满足质量要求。

科学家无法从单个数据点中获得洞察力,而两个点只是画出了一条直线。您至少需要三个
实验室一般会坚持三个批次的验证。为什么不能更多呢?虽然美国食品药品管理局 (FDA) 等监管机构没有规定验证批次的最大数量,但进行批次验证既费钱又费时,因此大多数实验室都会遵循相关准则。

方法是有原因的

这怎么会变得如此普遍 问题?通常情况下,这是由于 原因多种多样--方法不当、迂回曲折 协议,有时甚至是不当行为。

越来越多的研究人员在没有适当假设的情况下开始他们的研究,最终可能会抓着稻草在数据中寻找 "有意义的相关性"。通常情况下,可以找到有效 p 值的机会相当大,因为数据集越大,数据集中的小模式就越有可能显得重要,而不是随机事件。

Ioannidis 在论文中说,他担心研究人员试图从数据中找出模式,利用机器学习找到假设,而不是从假设出发。其结果是,这种方法几乎不需要验证。

造成这种情况的因素可能有多种,包括发表偏差、实验错误、没有正确使用统计方法以及机器学习技术不足。但这些因素都有一个共同点:科学家们在数据中发现了与现实世界不符的模式。

开展有益研究的压力依然存在

如今,我们拥有众多工具来帮助我们收集和分析海量数据。我们有机会从一开始就获得正确的数据,可以自由决定如何收集数据、如何组织数据、如何分析和解释数据。

有了收集和获取大量数据的能力,对适当方法的需求也随之增加。剩下的挑战就是设计一种适合假设的方法,并用收集到的数据对其进行检验,或者在假设数量巨大时使用适当的统计方法。

就拿拜耳公司的研究来说吧。虽然他们无法复制超过 25% 的研究结果,但幸运的是,他们发现能够复制的结果证明这些结果是可靠的--这充分说明这项研究具有临床潜力。

有人提出,科学家可以利用数据挖掘技术来找到那些最有可能被复制的研究。但这样做需要一个数据集来挖掘。更多复制
必须开展研究,以建立一个数据库,并简化今后的程序。

但现在,科学家们必须继续尝试复制现有的研究--测试它们的可重复性和稳健性。

或者,他们可以通过正确的方式规划研究,使用软件建立方法,在为时已晚之前发现偏差,并收集具有上下文的数据,以便轻松访问和解释数据。最重要的是,正确的科学信息学平台可以验证结果,确保研究可以复制,而不必因为错误而重新进行。

下载信息表
申请演示联系专家

更多信息表

E-WorkBook 预付费

通过一致的数据采集、强大的分析和快速报告功能,提高您的吞吐量。