又悲剧了:一个假理论十八年间被“证明”了几百次,学界大众皆受其害
发布时间:2019-06-28浏览次数:15
来源: 环球科学(huanqiukexue.com)
意志力总量有限,用了一些就会减少?这其实是错的。
差不多20年前,美国凯斯西储大学(Case Western Reserve University)的心理学家夫妻 Roy Baumeister 和 Dianne Tice 设计了一个测试自制能力(self-control)的基础实验。“房间里的一个小炉子里烤着巧克力曲奇,”他们在一篇被引用过3千多次的论文(Baumeister, Roy F., et al. Ego depletion: is the active self a limited resource?. Journal of personality and social psychology 74.5 (1998): 1252.)中写道,“于是实验室里充满了新鲜巧克力和烘培的香甜气息。”
这是心理学历史上最重要的巧克力香气。
实验的原理是这样的: Baumeister 和 Tice 把新鲜烘培的曲奇垒在盘子上,旁边放着一碗红白小萝卜。然后他们招呼一群志愿学生进来。他们让学生先在房间里等一会儿,吩咐一些学生只吃碗里的小萝卜,另外的学生只吃曲奇。然后,这些志愿者要试着解决一个实际上无解的难题。
Baumeister 和 Tice 记录了学生在解题任务中花费的时间,看看他们到底过多久会放弃。他们发现,那些吃了巧克力曲奇饼干的人平均坚持了19分钟,差不多和那些在对照组中什么都没吃的人一样久。而那些吃了小萝卜的人平均只坚持了8分钟就主动放弃了。
作者把这个现象叫做“自我损耗”(ego depletion),他们认为,这个现象揭示了一个关于人类精神的基本事实:我们的意志力是有限的,过度使用后它就会减少。当你被新鲜出炉的曲奇围绕时,吃小萝卜就成了一件克己的壮举,这会让你精疲力竭。Baumeister 和 Tice 认为,意志力是一种心理能量,它就像肌肉一样,会因为使用而变得疲乏。
这个简单的想法对于普通人来说可能非常直观易懂,但是,它在心理学界却算得上是革命性的理论,后来演变成了一个庞大的研究领域。接下来的几年里,Baumeister 和 Tice 的实验室,以及其他数十个实验室用相似的实验程序发表了大量的相关研究。首先,科学家用一个需要自制能力的任务消耗被试者的意志力,比如不吃巧克力曲奇、看很悲伤的电影——但要压抑自己的反应;几分钟后,他们用一个难题、一个游戏,或者其他需要耗费心力的任务来测试这些被试者。
心理学家发现,许多不同的任务都会耗尽一个人的能量,让他们的认知能力枯竭。决定是否要买一块肥皂就可能让穷困潦倒的印度乡村短工精疲力竭;狗忍住进食冲动的过程也会消耗它们的意志力;白人和黑人科学家讨论种族政治时也会心力交瘁。2010年,为了了解这类研究是否可靠,一些由 Martin Hagger 带领的科学家对该领域已发表的研究进行了元分析(meta-analysis)。Hagger 的团队使用了83项研究的198个实验,最终证实了这些研究的主要结果:“自我损耗”似乎是一个真实可靠的现象。
2011年,Baumeister 和《纽约时报》(New York Times)的 John Tierney 基于上述研究发表了一本励志科普书:《意志力:关于专注、自控与效率的心理学》(Willpower: Rediscovering the Greatest Human Strength)。这本畅销书教导读者如何将自我损耗的科学运用到生活中。作者称,一杯加了糖的柠檬水就能补充自制能力的内在储量;意志力就像肌肉一样,经常训练就能增加它的强度。在邓普顿基金会(Templeton Foundation)对 Baumeister 的一次采访中,他表示人真的可以塑造自己的品格。邓普顿基金会是一个有宗教倾向的科学资助机构,它为 Baumeister 提供了一百万美元的研究经费。彼时,他告诉《大西洋月刊》(the Atlantic),他从90年代末开始研究的效应是一个无可非议的事实。他说,“它们在许多不同的实验室里被反复验证和拓展,所以我确信它们是真实存在的。”
但故事发生了逆转。一篇正在印刷、将于下个月发表在《心理科学展望》(Perspectives on Psychological Science)上的论文描述了一次基于此理论,并试图重现其主要效应的宏大尝试。在几大洲的24个不同实验室,超过两千名被试者参与了这项研究,但研究者没有发现任何效应。自我损耗的效应为零:没有迹象表明人类的心理会像自我损耗理论所描述的那样运作,换句话说:他们的结果和此前几百项相关研究的结论全然不同。
这并不是心理学理论第一次受到挑战——完全不是。心理学以及许多其他领域出现的“可重复性危机”已是确定无疑了。去年夏天的一项研究试图严格复制100个心理学实验,结果只成功重复了其中的40%。前几日出现了一个对这个研究的评论,声称最初的那些研究者犯了统计错误。但这个评论本身也受到了攻击:有人说它曲解事实、无视证据,且批评者沉浸在自己的主观臆想中。
对于科学家和科学记者而言,心理学界不同阵营间的互相讨伐令人担忧。我们更愿相信已经发表的研究结果大概率是真实的,但这项关于自我损耗的最新研究却处在了更高的利害位置上:它不是要警告我们某些单一的研究不可靠,而是给整一套成型的研究文献蒙上了阴影。换句话说,它的攻击目标不是单个研究,而是支撑一个领域的宏大理论。
Baumeister 关于意志力的理论以及他用来测试这个理论的巧妙方法,已经在实证研究中被一次次地重复运用。这个效应曾被以几百种不同的方式改造,而背后的概念则被荟萃分析所肯定。这不是一个建立在薄弱证据上的疯狂新理论,而是一座由数年积累的坚实证据搭建起来的知识大厦。
但现在看起来,这座“自我损耗”的大厦可能只是一座由腐朽的材料堆叠而成的海市蜃楼。这就意味着,一整个研究领域——以及某些科学家职业生涯的辉煌成果——可能建立在一个虚假的前提之上。如果连这样的巨厦都能一夕倾倒,下面又会轮到什么?这不仅令人担忧,还令人毛骨悚然。* * *
为了搞清楚到底出了什么问题,Carter 重新查阅了2010年的那篇荟萃研究——那篇用了83项研究、198个实验的论文。他越是仔细研究,越发现结论不对劲。首先,荟萃分析仅仅囊括了已发表的研究,这就意味着它会产生偏向阳性结果的标准偏差。第二,它包含了在测量自制能力方面相互矛盾或反直觉的研究。比如,一个研究发现,自我损耗后的被试者会给慈善机构捐献更多的钱,但另一个研究却说自我损耗后的被试者不太愿意花时间帮助陌生人。他和他的导师 Michael McCullough 用一种先进的分析方法对2010年那篇论文的数据重新进行了分析,他们什么效应也没发现。在2015年他们发表的第二篇论文中,Carter 和 McCullough 进行了第二次荟萃分析,这次他们使用了不同的研究数据,包括48个从没有发表的研究。再一次,他们发现只有“非常微弱的证据”支持这个效应。
“突然之间我感到一切都开始崩塌。”Carter表示。他现在31岁,还没有得到助理教授的职位。“我已经基本失去了方向。通常我会说,好吧,有100篇发表的论文支持这个理论,我应该感觉不错,我能感到充满信心。但是这一切都不复存在了。”
并不是所有人都相信Carter和McCullough对这个领域的重新评价。他们用来校正论文偏差的神奇方法还太新,没有被完全验证过。一些这个领域里的著名学者称他们的结论过于草率。
但是此时此刻,这个领域也出现了其他的问题征兆。比如,柠檬水效应乍一看是不太合乎逻辑的。大脑不可能那么快地从一杯柠檬水里摄取足够的葡萄糖——喝一杯柠檬水不可能对结果有什么大影响。另外,一些实验室通过让人们用柠檬水漱口再吐掉的方式得到了相同的结果——被试者也恢复了自制能力。其他实验室则发现被试者的信念以及思维模式能够影响意志力是否被消耗、如何消耗。
这些批评本身并不致命。意志力可能是一种有限的资源,但我们可以根据自己的动机来使用意志力。不管怎么说,我们就是这么花钱的:一个人的购买习惯可能包括许多不同的因素,包括她有多少现金,她对自己财务状况的感受等。但是对于意志力本质的更为宏观的质疑以及荟萃分析的争论,使得这整个领域开始变得十分可疑。
2014年10月,美国心理科学学会(Association for Psychological Science, APS)发表声明称将尝试解决这个不确定性。APS会创立一个“重复实验报告注册”(Registered Replication Report)计划。该计划将安排许多不同实验室实行一系列实验,目的在于测试一个代表重要的研究理念的关键实验(这里就是自我损耗的相关实验)。撰写了2010年的荟萃分析的 Martin Hagger 将成为这项计划的领头作者。Roy Baumeiste r会为研究方法做咨询顾问。
这个实验复制团队必须选择特定的实验形式:他们到底复制几百个自我损耗实验中的哪一些?Baumeister 推荐了一些他最钟爱的实验设计,但事实证明,它们中的大多数都无法操作。复制团队需要那些能够在各种不同实验室里被可靠复制的任务。巧克力曲奇实验就达不到这个标准。如果哪个实验室把曲奇烤焦了怎么办?这会把整个实验搞砸!
在Baumeister的建议下,Hagger的团队敲定了一篇发表在2014年的论文,论文的作者是密歇根大学的研究人员。这个研究使用了一个标准的测评自制能力的任务:被试者观看在屏幕上一闪而过的简单单词,如level、trouble、plastic、business等,如果出现包含字母e的单词,且 e 旁边2个字母不包含元音的话,被试者需要敲击一个按键(也就是说,当被试者看到 trouble 这个单词时需要按键,但遇到 level 和 business 就得抑制他们按键的冲动)。在最初的实验中,完成这种自制能力任务使被试者产生了非常强烈的自我损耗效应:被试者在接下来另一个电脑测试中的得分显著变差了。
复制团队在24个不同的实验室中重复了这个实验,其中一些实验室把任务中的单词翻译成荷兰语、德语、法语和印尼语。研究作者之一、加拿大多伦多大学的Michael Inzlicht表示,在24个实验室中只有两个实验团队得到了显著的正向效应。有一个实验得到了负向效应,也就是说它加强而非减弱了自我意志。将所有的实验综合在一起后,整体上没有迹象表明 Baumeister 和 Tice 的原效应存在。
这到底是什么意思?这个结果最起码说明,一个特定的任务——字母e游戏——并不会使人的意志力衰竭,或者是,该任务之后的测试并没有有效地测量到自我损耗。事实上,Baumeister 自己对这个项目的观点也是这样。他从澳洲打电话告诉本文作者,“全世界的人都做了这个实验,结果大家什么效应都没有发现,这让我感觉很不好。”他依然相信自我损耗是真实存在的,仅仅是这个任务失败了,理论框架并没有动摇。
在他的实验室里,Baumeister 告诉我,字母 e 任务可以用不同的方式来实施。首先,他会训练被试者挑出所有包含字母 e 的单词,直到这个任务变成一个根深蒂固的习惯。在此之后他才会加入第二个规则,即忽视e旁边的2个字母含有元音的单词。他认为这个版本的任务需要更多的自制能力。
其次,他会让被试者用纸和笔,而不是用电脑来做这个任务。他提出,纸笔任务需要更多自制能力,因为抑制整个手臂的动作比抑制键盘上蠢蠢欲动的手指需要更多的自制能力。
Baumeister 认为,如果说这个实验复制计划得到了任何有用信息,那就是该领域的研究过于依赖电脑了。“过去做实验是一门手艺。你要和人打交道,让他们进入正确的心理状态,然后你再测量结果。但是现在出现了一种思潮,那就是让所有的事都自动化,这样所有的事都能够在网上快速方便地完成。”他接着说道,如今在行为科学里,实际发生的行为越来越少,“现在参加实验就是坐在电脑前读一些东西。”***
相较于 Baumeister,我更愿意把这个实验复制计划的失败看成一个重大事件。我们可以假设实验任务选错了,而自我损耗是真实存在的。如果真的是这样的话,那么这个研究明显说明这个效应并不像它看上去那样稳定。自我损耗的最大卖点就是它的灵活性:自我损耗不仅仅适用于巧克力曲奇和小萝卜实验,还适用于单词游戏、白人和黑人之间的谈话、是否购买肥皂的决策,甚至狗的行为。事实上,该效应的不可思议的适用范围常被人称颂。我们用这么多不同方式做的这么多实验,怎么可能都错了呢?
现在我们知道了,自我损耗的效应可能非常脆弱。它对测试方式十分敏感,以至于从纸笔测验转换到电脑测验就能将其抹杀。如果真是这样,那么我们为什么还要相信这个实验其他形式上的变体呢?如果真是这样,自我损耗的理论的宏大性就严重缩水了。
即使对于那些愿意承认自我损耗领域出了大篓子的人,让他们接受这么个宏大理论的解体并不是一件容易的事。对于自我损耗持乐观态度的人可能会承认,心理学的研究的样本太小,以至于无法反应真实的效应,或者说心理学家总是在瞎统计,直到得出显著的结果才住手。但这些观点都没有暗示研究者故意造假,仅仅承认了一种马虎的研究标准的普遍性。但是,乐观者依然会说,仅凭一篇文献之力,不可能让这种类型的错误如此彻底地散布在学界之中;这么多受干扰的虚假结果,也不可能表现得如此一致。如果所有这些成功的效应都是随机产生的,它们完美的吻合简直是个奇迹!
悲观者持相反的观点:一个坏结果很容易直接导致下一个坏结果。自我损耗理论如此醒目、如此无处不在,你可以用一千种方式来测试它。你不需要烤一盘巧克力曲奇,仅需用一碗满溢的 M&M 巧克力就可以引诱你的受试者。你不需要和受试者谈论另一个种族,你只需让他们回忆一次成为种族歧视受害者的经历即可。标准实验范式的不同版本都能够测试出同样的效应,这就是宏大理论的本质。这意味着你可以按照你的想法对概念进行不限次数的微调,直到得到一个看起来产生了正向结果的版本。但是,你能对这个概念进行复现,并不总意味着你得到的结果是真实的。它仅仅说明你尝试了各种不同的方法,说明不管失败多少次,你都愿意坚持直到最后知道做出成功的实验——说明你拥有证明自己的假设的意志力。
从表面上看,这个新的“复制实验报告注册”计划并没有将我们所知的意志力理论完全推翻。一个人的自制能力当然可以失效,只是我们并不清楚它何时发生、为什么发生。Baumeister 可能是完全正确的——人们有心理力量的一个“蓄水池”,每当我们使用了它,它就会枯竭了。但是他和 Tice 在20年前发明的包含2个任务的实验方法看起来不太靠谱。于是,整个领域都被质疑了。
“总有一天我们必须推倒一切重来,这个计划仅仅是个开始。”Inzlicht表示。他指的并不仅仅是所有的自我损耗研究,而是他对整个社会心理学的感受。
所有的旧研究方法都被质疑了。甚至是曾被视为评估大量研究的黄金标准的荟萃分析看起来也变得有些毫无用处。Inzlicht警告我,“荟萃分析完蛋了。”如果你分析200项粗陋的研究,你最后只能得到粗陋的结论。这就是所谓的垃圾进,垃圾出。
Baumeister打算用他认为行得通的研究方法进行他自己的复制研究。“我们打算做直接且不掺假的研究。我们必须回到起点,回到20年前的地方……发表证伪研究比证实研究要容易得多,”他面带倦容地告诉我,“日子不好过。这并不有趣。”
那些毕生研究都因此备受质疑的人的日子并不好过,而这个领域的批评者也没有感到欢欣鼓舞。“我觉得置身于黑暗中,”Inzlicht在最近的一篇博客中这么写道,“我感到身下的大地开始震动,我不知道什么是真的,什么又是假的。”
发布时间:2019-06-28浏览次数:15
来源: 环球科学(huanqiukexue.com)
意志力总量有限,用了一些就会减少?这其实是错的。
差不多20年前,美国凯斯西储大学(Case Western Reserve University)的心理学家夫妻 Roy Baumeister 和 Dianne Tice 设计了一个测试自制能力(self-control)的基础实验。“房间里的一个小炉子里烤着巧克力曲奇,”他们在一篇被引用过3千多次的论文(Baumeister, Roy F., et al. Ego depletion: is the active self a limited resource?. Journal of personality and social psychology 74.5 (1998): 1252.)中写道,“于是实验室里充满了新鲜巧克力和烘培的香甜气息。”
这是心理学历史上最重要的巧克力香气。
实验的原理是这样的: Baumeister 和 Tice 把新鲜烘培的曲奇垒在盘子上,旁边放着一碗红白小萝卜。然后他们招呼一群志愿学生进来。他们让学生先在房间里等一会儿,吩咐一些学生只吃碗里的小萝卜,另外的学生只吃曲奇。然后,这些志愿者要试着解决一个实际上无解的难题。
Baumeister 和 Tice 记录了学生在解题任务中花费的时间,看看他们到底过多久会放弃。他们发现,那些吃了巧克力曲奇饼干的人平均坚持了19分钟,差不多和那些在对照组中什么都没吃的人一样久。而那些吃了小萝卜的人平均只坚持了8分钟就主动放弃了。
作者把这个现象叫做“自我损耗”(ego depletion),他们认为,这个现象揭示了一个关于人类精神的基本事实:我们的意志力是有限的,过度使用后它就会减少。当你被新鲜出炉的曲奇围绕时,吃小萝卜就成了一件克己的壮举,这会让你精疲力竭。Baumeister 和 Tice 认为,意志力是一种心理能量,它就像肌肉一样,会因为使用而变得疲乏。
这个简单的想法对于普通人来说可能非常直观易懂,但是,它在心理学界却算得上是革命性的理论,后来演变成了一个庞大的研究领域。接下来的几年里,Baumeister 和 Tice 的实验室,以及其他数十个实验室用相似的实验程序发表了大量的相关研究。首先,科学家用一个需要自制能力的任务消耗被试者的意志力,比如不吃巧克力曲奇、看很悲伤的电影——但要压抑自己的反应;几分钟后,他们用一个难题、一个游戏,或者其他需要耗费心力的任务来测试这些被试者。
心理学家发现,许多不同的任务都会耗尽一个人的能量,让他们的认知能力枯竭。决定是否要买一块肥皂就可能让穷困潦倒的印度乡村短工精疲力竭;狗忍住进食冲动的过程也会消耗它们的意志力;白人和黑人科学家讨论种族政治时也会心力交瘁。2010年,为了了解这类研究是否可靠,一些由 Martin Hagger 带领的科学家对该领域已发表的研究进行了元分析(meta-analysis)。Hagger 的团队使用了83项研究的198个实验,最终证实了这些研究的主要结果:“自我损耗”似乎是一个真实可靠的现象。
2011年,Baumeister 和《纽约时报》(New York Times)的 John Tierney 基于上述研究发表了一本励志科普书:《意志力:关于专注、自控与效率的心理学》(Willpower: Rediscovering the Greatest Human Strength)。这本畅销书教导读者如何将自我损耗的科学运用到生活中。作者称,一杯加了糖的柠檬水就能补充自制能力的内在储量;意志力就像肌肉一样,经常训练就能增加它的强度。在邓普顿基金会(Templeton Foundation)对 Baumeister 的一次采访中,他表示人真的可以塑造自己的品格。邓普顿基金会是一个有宗教倾向的科学资助机构,它为 Baumeister 提供了一百万美元的研究经费。彼时,他告诉《大西洋月刊》(the Atlantic),他从90年代末开始研究的效应是一个无可非议的事实。他说,“它们在许多不同的实验室里被反复验证和拓展,所以我确信它们是真实存在的。”
但故事发生了逆转。一篇正在印刷、将于下个月发表在《心理科学展望》(Perspectives on Psychological Science)上的论文描述了一次基于此理论,并试图重现其主要效应的宏大尝试。在几大洲的24个不同实验室,超过两千名被试者参与了这项研究,但研究者没有发现任何效应。自我损耗的效应为零:没有迹象表明人类的心理会像自我损耗理论所描述的那样运作,换句话说:他们的结果和此前几百项相关研究的结论全然不同。
这并不是心理学理论第一次受到挑战——完全不是。心理学以及许多其他领域出现的“可重复性危机”已是确定无疑了。去年夏天的一项研究试图严格复制100个心理学实验,结果只成功重复了其中的40%。前几日出现了一个对这个研究的评论,声称最初的那些研究者犯了统计错误。但这个评论本身也受到了攻击:有人说它曲解事实、无视证据,且批评者沉浸在自己的主观臆想中。
对于科学家和科学记者而言,心理学界不同阵营间的互相讨伐令人担忧。我们更愿相信已经发表的研究结果大概率是真实的,但这项关于自我损耗的最新研究却处在了更高的利害位置上:它不是要警告我们某些单一的研究不可靠,而是给整一套成型的研究文献蒙上了阴影。换句话说,它的攻击目标不是单个研究,而是支撑一个领域的宏大理论。
Baumeister 关于意志力的理论以及他用来测试这个理论的巧妙方法,已经在实证研究中被一次次地重复运用。这个效应曾被以几百种不同的方式改造,而背后的概念则被荟萃分析所肯定。这不是一个建立在薄弱证据上的疯狂新理论,而是一座由数年积累的坚实证据搭建起来的知识大厦。
但现在看起来,这座“自我损耗”的大厦可能只是一座由腐朽的材料堆叠而成的海市蜃楼。这就意味着,一整个研究领域——以及某些科学家职业生涯的辉煌成果——可能建立在一个虚假的前提之上。如果连这样的巨厦都能一夕倾倒,下面又会轮到什么?这不仅令人担忧,还令人毛骨悚然。
这是心理学历史上最重要的巧克力香气。
实验的原理是这样的: Baumeister 和 Tice 把新鲜烘培的曲奇垒在盘子上,旁边放着一碗红白小萝卜。然后他们招呼一群志愿学生进来。他们让学生先在房间里等一会儿,吩咐一些学生只吃碗里的小萝卜,另外的学生只吃曲奇。然后,这些志愿者要试着解决一个实际上无解的难题。
Baumeister 和 Tice 记录了学生在解题任务中花费的时间,看看他们到底过多久会放弃。他们发现,那些吃了巧克力曲奇饼干的人平均坚持了19分钟,差不多和那些在对照组中什么都没吃的人一样久。而那些吃了小萝卜的人平均只坚持了8分钟就主动放弃了。
作者把这个现象叫做“自我损耗”(ego depletion),他们认为,这个现象揭示了一个关于人类精神的基本事实:我们的意志力是有限的,过度使用后它就会减少。当你被新鲜出炉的曲奇围绕时,吃小萝卜就成了一件克己的壮举,这会让你精疲力竭。Baumeister 和 Tice 认为,意志力是一种心理能量,它就像肌肉一样,会因为使用而变得疲乏。
这个简单的想法对于普通人来说可能非常直观易懂,但是,它在心理学界却算得上是革命性的理论,后来演变成了一个庞大的研究领域。接下来的几年里,Baumeister 和 Tice 的实验室,以及其他数十个实验室用相似的实验程序发表了大量的相关研究。首先,科学家用一个需要自制能力的任务消耗被试者的意志力,比如不吃巧克力曲奇、看很悲伤的电影——但要压抑自己的反应;几分钟后,他们用一个难题、一个游戏,或者其他需要耗费心力的任务来测试这些被试者。
心理学家发现,许多不同的任务都会耗尽一个人的能量,让他们的认知能力枯竭。决定是否要买一块肥皂就可能让穷困潦倒的印度乡村短工精疲力竭;狗忍住进食冲动的过程也会消耗它们的意志力;白人和黑人科学家讨论种族政治时也会心力交瘁。2010年,为了了解这类研究是否可靠,一些由 Martin Hagger 带领的科学家对该领域已发表的研究进行了元分析(meta-analysis)。Hagger 的团队使用了83项研究的198个实验,最终证实了这些研究的主要结果:“自我损耗”似乎是一个真实可靠的现象。
2011年,Baumeister 和《纽约时报》(New York Times)的 John Tierney 基于上述研究发表了一本励志科普书:《意志力:关于专注、自控与效率的心理学》(Willpower: Rediscovering the Greatest Human Strength)。这本畅销书教导读者如何将自我损耗的科学运用到生活中。作者称,一杯加了糖的柠檬水就能补充自制能力的内在储量;意志力就像肌肉一样,经常训练就能增加它的强度。在邓普顿基金会(Templeton Foundation)对 Baumeister 的一次采访中,他表示人真的可以塑造自己的品格。邓普顿基金会是一个有宗教倾向的科学资助机构,它为 Baumeister 提供了一百万美元的研究经费。彼时,他告诉《大西洋月刊》(the Atlantic),他从90年代末开始研究的效应是一个无可非议的事实。他说,“它们在许多不同的实验室里被反复验证和拓展,所以我确信它们是真实存在的。”
但故事发生了逆转。一篇正在印刷、将于下个月发表在《心理科学展望》(Perspectives on Psychological Science)上的论文描述了一次基于此理论,并试图重现其主要效应的宏大尝试。在几大洲的24个不同实验室,超过两千名被试者参与了这项研究,但研究者没有发现任何效应。自我损耗的效应为零:没有迹象表明人类的心理会像自我损耗理论所描述的那样运作,换句话说:他们的结果和此前几百项相关研究的结论全然不同。
这并不是心理学理论第一次受到挑战——完全不是。心理学以及许多其他领域出现的“可重复性危机”已是确定无疑了。去年夏天的一项研究试图严格复制100个心理学实验,结果只成功重复了其中的40%。前几日出现了一个对这个研究的评论,声称最初的那些研究者犯了统计错误。但这个评论本身也受到了攻击:有人说它曲解事实、无视证据,且批评者沉浸在自己的主观臆想中。
对于科学家和科学记者而言,心理学界不同阵营间的互相讨伐令人担忧。我们更愿相信已经发表的研究结果大概率是真实的,但这项关于自我损耗的最新研究却处在了更高的利害位置上:它不是要警告我们某些单一的研究不可靠,而是给整一套成型的研究文献蒙上了阴影。换句话说,它的攻击目标不是单个研究,而是支撑一个领域的宏大理论。
Baumeister 关于意志力的理论以及他用来测试这个理论的巧妙方法,已经在实证研究中被一次次地重复运用。这个效应曾被以几百种不同的方式改造,而背后的概念则被荟萃分析所肯定。这不是一个建立在薄弱证据上的疯狂新理论,而是一座由数年积累的坚实证据搭建起来的知识大厦。
但现在看起来,这座“自我损耗”的大厦可能只是一座由腐朽的材料堆叠而成的海市蜃楼。这就意味着,一整个研究领域——以及某些科学家职业生涯的辉煌成果——可能建立在一个虚假的前提之上。如果连这样的巨厦都能一夕倾倒,下面又会轮到什么?这不仅令人担忧,还令人毛骨悚然。
* * *
为了搞清楚到底出了什么问题,Carter 重新查阅了2010年的那篇荟萃研究——那篇用了83项研究、198个实验的论文。他越是仔细研究,越发现结论不对劲。首先,荟萃分析仅仅囊括了已发表的研究,这就意味着它会产生偏向阳性结果的标准偏差。第二,它包含了在测量自制能力方面相互矛盾或反直觉的研究。比如,一个研究发现,自我损耗后的被试者会给慈善机构捐献更多的钱,但另一个研究却说自我损耗后的被试者不太愿意花时间帮助陌生人。他和他的导师 Michael McCullough 用一种先进的分析方法对2010年那篇论文的数据重新进行了分析,他们什么效应也没发现。在2015年他们发表的第二篇论文中,Carter 和 McCullough 进行了第二次荟萃分析,这次他们使用了不同的研究数据,包括48个从没有发表的研究。再一次,他们发现只有“非常微弱的证据”支持这个效应。
“突然之间我感到一切都开始崩塌。”Carter表示。他现在31岁,还没有得到助理教授的职位。“我已经基本失去了方向。通常我会说,好吧,有100篇发表的论文支持这个理论,我应该感觉不错,我能感到充满信心。但是这一切都不复存在了。”
并不是所有人都相信Carter和McCullough对这个领域的重新评价。他们用来校正论文偏差的神奇方法还太新,没有被完全验证过。一些这个领域里的著名学者称他们的结论过于草率。
但是此时此刻,这个领域也出现了其他的问题征兆。比如,柠檬水效应乍一看是不太合乎逻辑的。大脑不可能那么快地从一杯柠檬水里摄取足够的葡萄糖——喝一杯柠檬水不可能对结果有什么大影响。另外,一些实验室通过让人们用柠檬水漱口再吐掉的方式得到了相同的结果——被试者也恢复了自制能力。其他实验室则发现被试者的信念以及思维模式能够影响意志力是否被消耗、如何消耗。
这些批评本身并不致命。意志力可能是一种有限的资源,但我们可以根据自己的动机来使用意志力。不管怎么说,我们就是这么花钱的:一个人的购买习惯可能包括许多不同的因素,包括她有多少现金,她对自己财务状况的感受等。但是对于意志力本质的更为宏观的质疑以及荟萃分析的争论,使得这整个领域开始变得十分可疑。
2014年10月,美国心理科学学会(Association for Psychological Science, APS)发表声明称将尝试解决这个不确定性。APS会创立一个“重复实验报告注册”(Registered Replication Report)计划。该计划将安排许多不同实验室实行一系列实验,目的在于测试一个代表重要的研究理念的关键实验(这里就是自我损耗的相关实验)。撰写了2010年的荟萃分析的 Martin Hagger 将成为这项计划的领头作者。Roy Baumeiste r会为研究方法做咨询顾问。
这个实验复制团队必须选择特定的实验形式:他们到底复制几百个自我损耗实验中的哪一些?Baumeister 推荐了一些他最钟爱的实验设计,但事实证明,它们中的大多数都无法操作。复制团队需要那些能够在各种不同实验室里被可靠复制的任务。巧克力曲奇实验就达不到这个标准。如果哪个实验室把曲奇烤焦了怎么办?这会把整个实验搞砸!
在Baumeister的建议下,Hagger的团队敲定了一篇发表在2014年的论文,论文的作者是密歇根大学的研究人员。这个研究使用了一个标准的测评自制能力的任务:被试者观看在屏幕上一闪而过的简单单词,如level、trouble、plastic、business等,如果出现包含字母e的单词,且 e 旁边2个字母不包含元音的话,被试者需要敲击一个按键(也就是说,当被试者看到 trouble 这个单词时需要按键,但遇到 level 和 business 就得抑制他们按键的冲动)。在最初的实验中,完成这种自制能力任务使被试者产生了非常强烈的自我损耗效应:被试者在接下来另一个电脑测试中的得分显著变差了。
复制团队在24个不同的实验室中重复了这个实验,其中一些实验室把任务中的单词翻译成荷兰语、德语、法语和印尼语。研究作者之一、加拿大多伦多大学的Michael Inzlicht表示,在24个实验室中只有两个实验团队得到了显著的正向效应。有一个实验得到了负向效应,也就是说它加强而非减弱了自我意志。将所有的实验综合在一起后,整体上没有迹象表明 Baumeister 和 Tice 的原效应存在。
这到底是什么意思?这个结果最起码说明,一个特定的任务——字母e游戏——并不会使人的意志力衰竭,或者是,该任务之后的测试并没有有效地测量到自我损耗。事实上,Baumeister 自己对这个项目的观点也是这样。他从澳洲打电话告诉本文作者,“全世界的人都做了这个实验,结果大家什么效应都没有发现,这让我感觉很不好。”他依然相信自我损耗是真实存在的,仅仅是这个任务失败了,理论框架并没有动摇。
在他的实验室里,Baumeister 告诉我,字母 e 任务可以用不同的方式来实施。首先,他会训练被试者挑出所有包含字母 e 的单词,直到这个任务变成一个根深蒂固的习惯。在此之后他才会加入第二个规则,即忽视e旁边的2个字母含有元音的单词。他认为这个版本的任务需要更多的自制能力。
其次,他会让被试者用纸和笔,而不是用电脑来做这个任务。他提出,纸笔任务需要更多自制能力,因为抑制整个手臂的动作比抑制键盘上蠢蠢欲动的手指需要更多的自制能力。
Baumeister 认为,如果说这个实验复制计划得到了任何有用信息,那就是该领域的研究过于依赖电脑了。“过去做实验是一门手艺。你要和人打交道,让他们进入正确的心理状态,然后你再测量结果。但是现在出现了一种思潮,那就是让所有的事都自动化,这样所有的事都能够在网上快速方便地完成。”他接着说道,如今在行为科学里,实际发生的行为越来越少,“现在参加实验就是坐在电脑前读一些东西。”
为了搞清楚到底出了什么问题,Carter 重新查阅了2010年的那篇荟萃研究——那篇用了83项研究、198个实验的论文。他越是仔细研究,越发现结论不对劲。首先,荟萃分析仅仅囊括了已发表的研究,这就意味着它会产生偏向阳性结果的标准偏差。第二,它包含了在测量自制能力方面相互矛盾或反直觉的研究。比如,一个研究发现,自我损耗后的被试者会给慈善机构捐献更多的钱,但另一个研究却说自我损耗后的被试者不太愿意花时间帮助陌生人。他和他的导师 Michael McCullough 用一种先进的分析方法对2010年那篇论文的数据重新进行了分析,他们什么效应也没发现。在2015年他们发表的第二篇论文中,Carter 和 McCullough 进行了第二次荟萃分析,这次他们使用了不同的研究数据,包括48个从没有发表的研究。再一次,他们发现只有“非常微弱的证据”支持这个效应。
“突然之间我感到一切都开始崩塌。”Carter表示。他现在31岁,还没有得到助理教授的职位。“我已经基本失去了方向。通常我会说,好吧,有100篇发表的论文支持这个理论,我应该感觉不错,我能感到充满信心。但是这一切都不复存在了。”
并不是所有人都相信Carter和McCullough对这个领域的重新评价。他们用来校正论文偏差的神奇方法还太新,没有被完全验证过。一些这个领域里的著名学者称他们的结论过于草率。
但是此时此刻,这个领域也出现了其他的问题征兆。比如,柠檬水效应乍一看是不太合乎逻辑的。大脑不可能那么快地从一杯柠檬水里摄取足够的葡萄糖——喝一杯柠檬水不可能对结果有什么大影响。另外,一些实验室通过让人们用柠檬水漱口再吐掉的方式得到了相同的结果——被试者也恢复了自制能力。其他实验室则发现被试者的信念以及思维模式能够影响意志力是否被消耗、如何消耗。
这些批评本身并不致命。意志力可能是一种有限的资源,但我们可以根据自己的动机来使用意志力。不管怎么说,我们就是这么花钱的:一个人的购买习惯可能包括许多不同的因素,包括她有多少现金,她对自己财务状况的感受等。但是对于意志力本质的更为宏观的质疑以及荟萃分析的争论,使得这整个领域开始变得十分可疑。
2014年10月,美国心理科学学会(Association for Psychological Science, APS)发表声明称将尝试解决这个不确定性。APS会创立一个“重复实验报告注册”(Registered Replication Report)计划。该计划将安排许多不同实验室实行一系列实验,目的在于测试一个代表重要的研究理念的关键实验(这里就是自我损耗的相关实验)。撰写了2010年的荟萃分析的 Martin Hagger 将成为这项计划的领头作者。Roy Baumeiste r会为研究方法做咨询顾问。
这个实验复制团队必须选择特定的实验形式:他们到底复制几百个自我损耗实验中的哪一些?Baumeister 推荐了一些他最钟爱的实验设计,但事实证明,它们中的大多数都无法操作。复制团队需要那些能够在各种不同实验室里被可靠复制的任务。巧克力曲奇实验就达不到这个标准。如果哪个实验室把曲奇烤焦了怎么办?这会把整个实验搞砸!
在Baumeister的建议下,Hagger的团队敲定了一篇发表在2014年的论文,论文的作者是密歇根大学的研究人员。这个研究使用了一个标准的测评自制能力的任务:被试者观看在屏幕上一闪而过的简单单词,如level、trouble、plastic、business等,如果出现包含字母e的单词,且 e 旁边2个字母不包含元音的话,被试者需要敲击一个按键(也就是说,当被试者看到 trouble 这个单词时需要按键,但遇到 level 和 business 就得抑制他们按键的冲动)。在最初的实验中,完成这种自制能力任务使被试者产生了非常强烈的自我损耗效应:被试者在接下来另一个电脑测试中的得分显著变差了。
复制团队在24个不同的实验室中重复了这个实验,其中一些实验室把任务中的单词翻译成荷兰语、德语、法语和印尼语。研究作者之一、加拿大多伦多大学的Michael Inzlicht表示,在24个实验室中只有两个实验团队得到了显著的正向效应。有一个实验得到了负向效应,也就是说它加强而非减弱了自我意志。将所有的实验综合在一起后,整体上没有迹象表明 Baumeister 和 Tice 的原效应存在。
这到底是什么意思?这个结果最起码说明,一个特定的任务——字母e游戏——并不会使人的意志力衰竭,或者是,该任务之后的测试并没有有效地测量到自我损耗。事实上,Baumeister 自己对这个项目的观点也是这样。他从澳洲打电话告诉本文作者,“全世界的人都做了这个实验,结果大家什么效应都没有发现,这让我感觉很不好。”他依然相信自我损耗是真实存在的,仅仅是这个任务失败了,理论框架并没有动摇。
在他的实验室里,Baumeister 告诉我,字母 e 任务可以用不同的方式来实施。首先,他会训练被试者挑出所有包含字母 e 的单词,直到这个任务变成一个根深蒂固的习惯。在此之后他才会加入第二个规则,即忽视e旁边的2个字母含有元音的单词。他认为这个版本的任务需要更多的自制能力。
其次,他会让被试者用纸和笔,而不是用电脑来做这个任务。他提出,纸笔任务需要更多自制能力,因为抑制整个手臂的动作比抑制键盘上蠢蠢欲动的手指需要更多的自制能力。
Baumeister 认为,如果说这个实验复制计划得到了任何有用信息,那就是该领域的研究过于依赖电脑了。“过去做实验是一门手艺。你要和人打交道,让他们进入正确的心理状态,然后你再测量结果。但是现在出现了一种思潮,那就是让所有的事都自动化,这样所有的事都能够在网上快速方便地完成。”他接着说道,如今在行为科学里,实际发生的行为越来越少,“现在参加实验就是坐在电脑前读一些东西。”
***
相较于 Baumeister,我更愿意把这个实验复制计划的失败看成一个重大事件。我们可以假设实验任务选错了,而自我损耗是真实存在的。如果真的是这样的话,那么这个研究明显说明这个效应并不像它看上去那样稳定。自我损耗的最大卖点就是它的灵活性:自我损耗不仅仅适用于巧克力曲奇和小萝卜实验,还适用于单词游戏、白人和黑人之间的谈话、是否购买肥皂的决策,甚至狗的行为。事实上,该效应的不可思议的适用范围常被人称颂。我们用这么多不同方式做的这么多实验,怎么可能都错了呢?
现在我们知道了,自我损耗的效应可能非常脆弱。它对测试方式十分敏感,以至于从纸笔测验转换到电脑测验就能将其抹杀。如果真是这样,那么我们为什么还要相信这个实验其他形式上的变体呢?如果真是这样,自我损耗的理论的宏大性就严重缩水了。
即使对于那些愿意承认自我损耗领域出了大篓子的人,让他们接受这么个宏大理论的解体并不是一件容易的事。对于自我损耗持乐观态度的人可能会承认,心理学的研究的样本太小,以至于无法反应真实的效应,或者说心理学家总是在瞎统计,直到得出显著的结果才住手。但这些观点都没有暗示研究者故意造假,仅仅承认了一种马虎的研究标准的普遍性。但是,乐观者依然会说,仅凭一篇文献之力,不可能让这种类型的错误如此彻底地散布在学界之中;这么多受干扰的虚假结果,也不可能表现得如此一致。如果所有这些成功的效应都是随机产生的,它们完美的吻合简直是个奇迹!
悲观者持相反的观点:一个坏结果很容易直接导致下一个坏结果。自我损耗理论如此醒目、如此无处不在,你可以用一千种方式来测试它。你不需要烤一盘巧克力曲奇,仅需用一碗满溢的 M&M 巧克力就可以引诱你的受试者。你不需要和受试者谈论另一个种族,你只需让他们回忆一次成为种族歧视受害者的经历即可。标准实验范式的不同版本都能够测试出同样的效应,这就是宏大理论的本质。这意味着你可以按照你的想法对概念进行不限次数的微调,直到得到一个看起来产生了正向结果的版本。但是,你能对这个概念进行复现,并不总意味着你得到的结果是真实的。它仅仅说明你尝试了各种不同的方法,说明不管失败多少次,你都愿意坚持直到最后知道做出成功的实验——说明你拥有证明自己的假设的意志力。
从表面上看,这个新的“复制实验报告注册”计划并没有将我们所知的意志力理论完全推翻。一个人的自制能力当然可以失效,只是我们并不清楚它何时发生、为什么发生。Baumeister 可能是完全正确的——人们有心理力量的一个“蓄水池”,每当我们使用了它,它就会枯竭了。但是他和 Tice 在20年前发明的包含2个任务的实验方法看起来不太靠谱。于是,整个领域都被质疑了。
“总有一天我们必须推倒一切重来,这个计划仅仅是个开始。”Inzlicht表示。他指的并不仅仅是所有的自我损耗研究,而是他对整个社会心理学的感受。
所有的旧研究方法都被质疑了。甚至是曾被视为评估大量研究的黄金标准的荟萃分析看起来也变得有些毫无用处。Inzlicht警告我,“荟萃分析完蛋了。”如果你分析200项粗陋的研究,你最后只能得到粗陋的结论。这就是所谓的垃圾进,垃圾出。
Baumeister打算用他认为行得通的研究方法进行他自己的复制研究。“我们打算做直接且不掺假的研究。我们必须回到起点,回到20年前的地方……发表证伪研究比证实研究要容易得多,”他面带倦容地告诉我,“日子不好过。这并不有趣。”
那些毕生研究都因此备受质疑的人的日子并不好过,而这个领域的批评者也没有感到欢欣鼓舞。“我觉得置身于黑暗中,”Inzlicht在最近的一篇博客中这么写道,“我感到身下的大地开始震动,我不知道什么是真的,什么又是假的。”
相较于 Baumeister,我更愿意把这个实验复制计划的失败看成一个重大事件。我们可以假设实验任务选错了,而自我损耗是真实存在的。如果真的是这样的话,那么这个研究明显说明这个效应并不像它看上去那样稳定。自我损耗的最大卖点就是它的灵活性:自我损耗不仅仅适用于巧克力曲奇和小萝卜实验,还适用于单词游戏、白人和黑人之间的谈话、是否购买肥皂的决策,甚至狗的行为。事实上,该效应的不可思议的适用范围常被人称颂。我们用这么多不同方式做的这么多实验,怎么可能都错了呢?
现在我们知道了,自我损耗的效应可能非常脆弱。它对测试方式十分敏感,以至于从纸笔测验转换到电脑测验就能将其抹杀。如果真是这样,那么我们为什么还要相信这个实验其他形式上的变体呢?如果真是这样,自我损耗的理论的宏大性就严重缩水了。
即使对于那些愿意承认自我损耗领域出了大篓子的人,让他们接受这么个宏大理论的解体并不是一件容易的事。对于自我损耗持乐观态度的人可能会承认,心理学的研究的样本太小,以至于无法反应真实的效应,或者说心理学家总是在瞎统计,直到得出显著的结果才住手。但这些观点都没有暗示研究者故意造假,仅仅承认了一种马虎的研究标准的普遍性。但是,乐观者依然会说,仅凭一篇文献之力,不可能让这种类型的错误如此彻底地散布在学界之中;这么多受干扰的虚假结果,也不可能表现得如此一致。如果所有这些成功的效应都是随机产生的,它们完美的吻合简直是个奇迹!
悲观者持相反的观点:一个坏结果很容易直接导致下一个坏结果。自我损耗理论如此醒目、如此无处不在,你可以用一千种方式来测试它。你不需要烤一盘巧克力曲奇,仅需用一碗满溢的 M&M 巧克力就可以引诱你的受试者。你不需要和受试者谈论另一个种族,你只需让他们回忆一次成为种族歧视受害者的经历即可。标准实验范式的不同版本都能够测试出同样的效应,这就是宏大理论的本质。这意味着你可以按照你的想法对概念进行不限次数的微调,直到得到一个看起来产生了正向结果的版本。但是,你能对这个概念进行复现,并不总意味着你得到的结果是真实的。它仅仅说明你尝试了各种不同的方法,说明不管失败多少次,你都愿意坚持直到最后知道做出成功的实验——说明你拥有证明自己的假设的意志力。
从表面上看,这个新的“复制实验报告注册”计划并没有将我们所知的意志力理论完全推翻。一个人的自制能力当然可以失效,只是我们并不清楚它何时发生、为什么发生。Baumeister 可能是完全正确的——人们有心理力量的一个“蓄水池”,每当我们使用了它,它就会枯竭了。但是他和 Tice 在20年前发明的包含2个任务的实验方法看起来不太靠谱。于是,整个领域都被质疑了。
“总有一天我们必须推倒一切重来,这个计划仅仅是个开始。”Inzlicht表示。他指的并不仅仅是所有的自我损耗研究,而是他对整个社会心理学的感受。
所有的旧研究方法都被质疑了。甚至是曾被视为评估大量研究的黄金标准的荟萃分析看起来也变得有些毫无用处。Inzlicht警告我,“荟萃分析完蛋了。”如果你分析200项粗陋的研究,你最后只能得到粗陋的结论。这就是所谓的垃圾进,垃圾出。
Baumeister打算用他认为行得通的研究方法进行他自己的复制研究。“我们打算做直接且不掺假的研究。我们必须回到起点,回到20年前的地方……发表证伪研究比证实研究要容易得多,”他面带倦容地告诉我,“日子不好过。这并不有趣。”
那些毕生研究都因此备受质疑的人的日子并不好过,而这个领域的批评者也没有感到欢欣鼓舞。“我觉得置身于黑暗中,”Inzlicht在最近的一篇博客中这么写道,“我感到身下的大地开始震动,我不知道什么是真的,什么又是假的。”
版权所有:上海师范大学 儿童发展与家庭研究中心 Tel:021-64323907-2406 E-mail:shnuchildfamily@163.com
|