【盘点】实验的可重复性差都有哪些原因？

zszhao 发表于 2015-9-3 22:54:26

【盘点】实验的可重复性差都有哪些原因？

在上个月末的《Science》杂志上，美国弗吉尼亚大学的Brian Nosek作为通讯作者，发表了题为《Estimating the reproducibility of psychological science》的研究文章。文中，研究者们提到，尽管他们能够重复出最近的100项心理学研究的原始实验，但是其中仅有不到一半的重复实验结果与原研究结果一致。这项研究的作者还给出了为什么重复实验会与原始结果不同的原因分析。

该文章发表之后，英国牛津大学的发育神经心理学教授Dorothy Bishop给出了对该研究的评论。他首先首先提到，研究者需要知道有些因素会导致“文章灌水”，以至于实验不可重复。一般的“文章灌水”有三种原因，一种是有倾向性地发表支持猜想的数据，然后是只发表有显著统计学意义的数据，最后是研究样本数量不够。这篇发表在《Science》上的研究，还给出了其他原因，即实验样品的差异、实验设定的差异以及实验完成的质量差异等等。

然而，对于Brian Nosek等给出的这三种原因（实验样品的差异、实验设定的差异以及实验完成的质量差异），Dorothy Bishop并不十分认同前两种原因。对于实验完成的质量的问题，也可能存在这样的情况，即重复实验在数据上和原始实验存在显著性差异，很可能是重复实验时候没有处理好或者操作正确。然而，对于实验样品和实验设置，在重复100项心理学研究的时候，研究者们在试图重复实验时候，与原始实验的相关人员进行了充分的沟通，原始实验的方法也是相对透明。因此，Bishop教授认为，可能还存在着其他没有被提出过的因素影响了实验，但是这些未知因素的微小差异对于实验结果究竟有多大影响还不可知。

基于Brian Nosek的这项研究，Bishop教授认为，我们的的实验中存在一些问题，如果得到合理解决，那么实验重复性会好很多。比如，可以通过一系列的改进来使得实验更有重复性。例如，方法a，在实验开始之前就公开实验的步骤，明确告知自己的假设和实验预期，并写清楚具体如何操作。方法b，实验中使用有统计学意义的大量样本。或者方法c，发表那些没有结论的研究，只要前期实验设计完整、严谨、有统计学意义，那么这样的实验结果虽然没有明确结论，但是仍然是有意义的。还有比如，方法d，提供实验的详细步骤和具体操作，类似地还有方法e，公开实验中使用的数据、脚本、原始数据等等。

虽然Brian Nosek的研究是针对心理学领域的重复实验，这并不是说心理学领域的实验重复性很差。实际上，所有的科学领域可能都会或多或少存在类似的问题，可以引申心理学领域的重复实验的结论到其他科学领域，毕竟重复性对于所有的科学研究都是重要的。Bishop教授认为针对实验的重复性，为了贡献更严谨的科学，科学基金评审人、期刊编辑以及科学家们都需要行动起来，为未来实验的重复性更好，拿出实际的行动。

拓展阅读：
Science：Estimating the reproducibility of psychological science
http://www.sciencemediacentre.org/expert-reaction-to-report-on-the-reproducibility-of-psychological-research/
Science Midea Center：expert reaction to report on the reproducibility of psychological research
http://www.sciencemediacentre.org/expert-reaction-to-report-on-the-reproducibility-of-psychological-research/
本文选自：生物谷

页: [1]

中国病毒学论坛|我们一直在坚持！'s Archiver

【盘点】实验的可重复性差都有哪些原因？