对于许多心理学家而言,有明确迹象表明,他们的研究领域遇到了麻烦。讽刺的是,最明显的迹象来自一项有关预感(premonition)的研究。美--国康奈尔大学的社会心理学家达里尔·贝姆(Daryl Bem)向学生自愿者展示了48个单词,然后出其不意地要求他们尽可能多地写下所记得的单词。随后又进行一项练习:贝姆给学生随机提供部分测试过的单词,并让他们抄写。贝姆发现,有些学生在测试中,更容易写出随后练习中抄写的那部分单词。结果先于原因出现?
贝姆在人格与社会心理学杂志(Journal of Personality and Social Psychology)上发表了他的这一发现,以及另外8个支持心理效应(psychic effects,贝姆将其称为“psi”)的实验。毫无疑问,不少科学家怀疑他的观点。3个研究小组分别试图重现贝姆所报道的实验结果,都没有成功,这导致他们在发表研究结果时,遭遇重重障碍。这一事件给心理学研究敲响了警钟。“事实上,文献中越来越多有悖常理的发现,这让人们意识到,其中一部分结果也许根本就不可重现,”荷兰阿姆斯特丹大学的数学心理学家埃里克·简·瓦根马克斯(Eric-Jan Wagenmakers)说。
心理学中的阳性结果有时会像谣言一样,容易传播而难以消除。它们占据着大部分追求新奇研究的期刊。同时,那些试图重现这些研究结果的工作,尤其是当重复实验得到阴性结果时,却难以发表,只会搁置在个人文件柜里,或者变成茶余饭后的谈资。瓦根马克斯说,“有些实验是大家都知道不能重现的,但文献中并没有这方面的报道”。他补充道,发表研究结果的障碍让人心寒,“有的学生花费整个--BO士生研究阶段,去尝试重现某个现象,结果重复不出来,多年研究得到的阴性结果又难以发表,于是只好退出学术界”。
这些问题在整个学术界普遍存在,但心理学领域一些根深蒂固的文化规范使这些问题更加严重。例如,调整实验设计以保证得到阳性结果已成为普遍做法。一旦阳性结果得到发表,几乎没有研究人员去做重复实验,取而代之的是“概念性重复”(conceptual replications),也就是用不同的方法检验类似的假说。批评人士称,这一做法相当于在摇摇欲坠的地基上用纸牌建房子。
一些著名的欺诈案例使这些问题成为了人们关注的焦点,始作俑者原以为不会被察觉,因为重复实验的难度很大。目前心理学家正试图解决这些问题。人们已经开始评估问题的规模,并给重复实验提供发表的机会。“在过去6个月中,更多心理学研究人员开始谈论和关注这一问题,”美--国宾夕法尼亚大学的实验心理学家约瑟夫·西蒙斯(Joseph Simmons)说,“希望我们能迎来一个转折点。”
普遍的偏见
面临这些问题的并非只有心理学。在一篇著名的论文中,目前供职于斯坦福大学医学院的流行病学家约翰·约阿尼迪斯(John Ioannidis)认为,据统计推断,“许多已发表的研究结果是错误的”。英国爱丁堡大学的社会学家丹尼尔·法内利(Daniele Fanelli)对科学界各领域4 600项研究进行了调查,结果发现,1990年至2007年之间阳性结果的比例增长了22%以上。根据法内利的另一项研究,心理学和精神病学报道阳性结果的比例最高,而空间科学的比例最低,前者几乎是后者的5倍(参见“重视阳性结果”)。这种情况一直没有得到改善。1959年,统计学家西奥多·斯特林(Theodore Sterling)发现,心理学领域最重要的4个期刊所发表的研究中,97%是具有统计学意义的阳性结果;1995年,他再次分析后发现,情况毫无改变。
英国卡迪夫大学的实验心理学家克里斯·钱伯斯(Chris Chambers)说,心理学阳性结果泛滥,其中一个原因是强调“有噱头的”结果,“高影响因子的期刊往往把心理学研究当做吸引眼球的把戏”。结论必须精彩、抢眼甚至令人难以置信。西蒙斯声称,部分责任在于审阅过程。“我们审阅文章时,总是让作者证明他们的发现是新奇或者有趣的,”他说,“我们通常不要求他们证明自己的发现是真实的。”
西蒙斯应该是了解这一点的。他最近在心理科学(Psychological Science)上发表了一篇文章,半开玩笑地“宣布”,披头士(Beatles)的当我六十四岁(When I’m Sixty-four)这首歌可以使听众的年龄减小一岁半。西蒙斯设计这项实验是为了说明,利用有统计学意义的结果来支持假设是何等容易。许多心理学家在关键研究环节上作决定时非常随意,包括招募多少自愿者、测量哪些变量以及如何分析结果。研究人员本该无恶意作出选择,但有些人却随意歪曲实验和数据,直至得到阳性结果。
美--国哈佛商学院的消费者心理学家莱斯利·约翰(Leslie John)对2 000多名心理学家进行了一项调查,结果发现,超过50%的人都会首先检验结果的统计学意义,然后再决定是否收集更多数据,直到获得阳性结果就停手。超过40%的人选择性发表阳性结果。一般说来,大多数接受调查的心理学家都认为这些做法情有可原。“很多人继续这么做,因为他们在接受科研训练时,老师就是这么教的,”美--国伊利诺伊大学厄巴纳-香槟分校的心理学家布伦特·罗伯茨(Brent Roberts)说。
于是,提供证据的重担就压在了进行重复实验的人肩上,但他们面临着很大的困难。想想贝姆那篇声名狼藉的论文发表后的余波吧。3个研究小组都未能重复出贝姆的实验结果,当他们联合将阴性实验结果投稿给学术期刊时,人格与社会心理学杂志和科学和心理科学(Science and Psychological Science)都表示,不会发表简单的重复实验。英国心理学杂志(The British Journal of Psychology)将论文送出外审了,但最后还是拒绝刊登,而贝姆正是外聘的审稿人之一。四处碰壁的论文最终在公共科学图书馆·综合(PLoS on_E)杂志寻得立锥之地,这一杂志发表所有“技术上可靠”的论文,无论其结果是否新奇。
“我已经尽己所能来鼓励重复实验了,”贝姆说。他坚持自己的结论,并已在网上公布了他的实验方法和测试的所有细节。但他补充道,一项重复实验本身说明不了任何问题。“它是不成熟的,”他说,“人们要花很多年的时间,才能弄清楚一项重复实验失败或成功的原因。需要综合分析多次实验。”
比利时布鲁塞尔自由大学的认知心理学家斯特凡·多扬(Stéphane Doyen)和同事未能重复出美--国耶鲁大学约翰·巴奇(John Bargh)的经典实验时,也遇到类似的问题。巴奇曾通过实验指出,人们无意中想到与年龄有关的单词时,行走速度会变慢。而多扬的论文遭到多次拒绝后,最终也发表在公共科学图书馆· 综合上。巴奇怒气冲冲地在--BO客上发文回应,认为多扬的研究小组是“一群外行的研究人员”。后来,有人发表--BO客描述了这次交锋,巴奇又与--BO文作者进行了一番争论。巴奇说,他之所以反应如此强烈,部分原因是他发现人们对“潜意识思维过程非常重要”这一观点越来越怀疑,他感到这一研究领域受到了损害。
诚然,一次重复实验的失败并不能否定原来的结果。许多平淡无奇的原因都可能导致重复实验失败。如果原来的实验结果不是很明显,重复实验时就可能偶然出现阴性结果;参与重复实验的自愿者也可能与原来实验中的不同;另外,一个研究小组可能根本没能力重现另一个研究小组的实验。
“做实验与导演戏剧有共通之处,”美--国普林斯顿大学的心理学家、诺贝尔奖得主丹尼尔·卡尼曼(Daniel Kahneman)说。诸如实验的日期、房间的颜色等细枝末节,都可能会影响结果,而实验方法中从来不会描述这些细节。例如,巴奇就辩称,多扬的研究小组给自愿者展示了太多与年龄有关的单词,这可能引起他们对实验隐藏意图的注意。在诱导性研究中,“你必须将实验条件设定得恰如其分,既能产生效果,又不会引起自愿者的任何注意,” 卡尼曼说,“不是所有人都有巴奇的诀窍。” 卡尼曼说,只有那些发现了某种效应,并在成百上千次实验中重现了这种效应的人,才拥有这类特殊的“诀窍”。巴奇在谈到他的诱导性实验时说,他“从未想过利用某些秘密知识,来促成这些效应的产生。我们总是尝试公开这些知识,但也许我们应该更多、更详细地公布实验方法的种种细节”。
重视阳性结果
对各学科的文献分析表明,学术期刊都倾向于发表“阳性”研究结果——即“支持”待验证假说的结果。而精神病学和心理学痼疾最深。
1996年,当巴奇发表了那篇关于潜意识诱导效应的论文之后,几十个实验室如法炮制,开始了各自的诱导性实验。例如一项实验显示,比起拿轻写字板的自愿者,拿重写字板的自愿者参加面试时更认真,面对社会问题时更有紧迫感。而另一项实验则发现,在与清洁有关的单词的影响下,受试者对肮脏行为更宽容。
这种概念性重复对于经常涉及抽象概念的心理学是有用的。“人们通常认为,与完全不变的重复相比,‘概念性重复’能更好地证明某些效应的普遍性,”美--国印第安纳大学布卢明顿分校的心理学家、人格与社会心理学杂志的编辑艾略特·史密斯(Eliot Smith)说。
但另一些心理学家认为,依赖概念性重复是有问题的。“你不可能完全复制某个概念,” 钱伯斯说,“这太主观了。谁也不确定一项研究需要多么‘类似’,才能算作概念性重复。”他表示,这种做法还产生了“逻辑上的双重标准”。例如,如果一块重写字板无意中影响了人们的判断,人们就会将它视为“与年龄有关的单词使行走变慢”的概念性重复;但如果写字板的重量并未影响人们的判断,没有人会指出原来的诱导效应在概念性重复中被证伪。由于只能被证明而不能被证伪,概念性重复往往是一系列弱结果彼此论证。“这是验证性偏差(confirmation bias)在科学中的体现,” 美--国弗吉尼亚大学的社会心理学家布赖恩· 诺塞克(Brian Nosek)说,“如果不进行概念性重复,心理学的发展将受到限制,但它并不能取代直接重复实验。为了证明‘A’是真实的,你需要再做一次‘A’,而不是去做‘B’。”
学术欺诈与不端
概念性重复的做法,会导致学术不端行为难以发现。2011年11月,荷兰蒂尔堡大学的社会心理学新秀迪德瑞克·斯达伯(Diederik Stapel)接受调查,最终供认了大量学术欺诈行为。斯达伯发表了一系列令人振奋、引人注目的研究成果,例如混乱的火车站等无序环境会助长歧视。重复这些实验有许多困难,这使得斯达伯的学术欺诈行为很难被发现。负责调查这一案件的科学委员会写道:“尽管这些过于漂亮的结果本应引发人们的怀疑,但实际上却被奉为圭臬……即便人们亲自进行过重复实验,他们也会相信,自己的失败是因为缺少斯达伯先生的技能。”现在,人们已经清楚,斯达伯至少在30篇论文中窜改和捏造了数据。
斯达伯的故事,与美--国哈佛大学的心理学家卡伦·鲁杰罗(Karen Ruggiero)和马克·豪塞尔(Marc Hauser)的情况如出一辙,这两位分别在歧视和道德方面发表了备受瞩目的文章。鲁杰罗的学术欺诈行为于2001年被人们发现,而豪塞尔在2010年被发现存在学术不端行为。与斯达伯一样,他们都是被内部举报人揭露。“如果这个领域真的能自我纠正,那为什么他们两人的学术欺诈或不端一直未能被纠正呢?”诺塞克说。
在这些争议的驱动下,许多心理学家都在想方设法,鼓励研究人员做重复实验。“我认为心理学应该带头应对这一挑战,”美--国加利福尼亚大学圣巴巴拉分校的认知心理学家乔纳森·斯库勒(Jonathan Schooler)说。2012年1月,加利福尼亚大学圣迭戈分校的心理学家哈尔· 帕施勒(Hal Pashler)和同事一起创办了一个名为“心理学文件抽屉”(PsychFileDrawer)的网站,心理学家可以在该网站提交未发表的重复实验,无论是否得到阳性结果。该网站受到热烈欢迎,但迄今只收到9个实验结果。提交实验结果几乎得不到任何激励:科学家提交实验结果后,要面对同行的批评,却并不能增加他们所发表文章的数量。
美--国加利福尼亚大学洛杉矶分校的社会心理学家马修·利伯曼(Matthew Lieberman)提出了不同的方法。他说,“美--国一流大学的心理学课程可以列出一份心理学研究结果的名单,要求研究生在自己的领域内选择一项,进行重复实验”。这样,学生将锻炼自己的技能,并早早发表有价值的文章,而心理学界则可以确认那些令人惊讶的效应是否站得住脚。
瓦根马克斯还认为,重复实验的发表规则应与其他研究有所不同——它们应该像医学上的临床试验一样预先登记,以避免西蒙斯所描述的情况:根据预设结果反过来扭曲实验数据,以及根据实验结果来决定是否发表。在重复实验初期就与原文章的作者联系,甚至一起合作,可以从一开始就确保实验方法的完善。
这些改变可能还只是部分科学家的一厢情愿。另一些科学家尚在质疑问题究竟是否存在,甚至诺塞克也指出,对于假阳性结果的普遍性,还没有切实可靠的评估。为了弥补这一点,去年年底,他召集了一组心理学家,尝试重现3个最重要的心理学期刊在2008年发表的每一项研究结果。该小组将尽可能使用与原始实验相同的方法,并尽量与原作者一起工作。诺塞克称,这项研究的目的不是揪出个别有问题的工作,而是为了“获得一些初步证据,以确定重复实验到底有多大的必要”。
有些研究人员认为,诺塞克等人不可能得出什么结论,但帕施勒相信自己的担忧会得到证实:许多心理学研究结果都不可重现,而未能重复出原始结果的研究都搁置在研究人员的“文件柜”中,这些都是事实。帕施勒说:“到那时,真相将无可辩驳。”
(作者:埃德·扬;翻译:车晶)