北京物流信息联盟

不确定性下的判断:启发法和偏见

2023-05-25 17:04:50

我们所做的许多决策都是基于对不确定事件概率的信念,这些不确定事件包括选举结果、被告的内疚感或是美元的未来价值。这些信念通常被表述为“我想……”“概率是……”“它是不可能的……”等。对于不肯定事件的信念有时还能以概率或主观概率等数字形式表现出来。那么,是什么决定了人们的信念?


    人们又是怎样评估不确定事件的概率和不确定数量的价值呢?本文将会告知你们,人们依赖于数量有限的启发式原则,而这些原则能将测量概率以及预测价值的任务简化,使其成为更为简单的判断过程。总的来说,这些启发法相当有用,但有时也会导致严重的、系统性的错误。


    对概率的主观评估与对距离或大小等物理量的主观测量相类似。这些判断都依赖于效度有限的数据,是根据启发式的规则进行的。例如,某物体的距离取决于其清晰程度。物体看上去越清楚,其距离就显得越近。这条规则有一定的效度,因为在任何给定的情境中,距离较远的物体都会比距离较近的物体更不清楚。然而,对这条规则的信赖会导致我们在测量距离的过程中产生系统性错误。特别是在能见度较低时,物体轮廓就会模糊,而其距离就常常会被高估。另一方面,在能见度较高时,物体轮廓就会清晰,其距离也就会被低估。因此,如果依赖于清晰度,将清晰度作为测量距离远近的标尺的话,就会导致普遍的偏见。这样的偏见在对概率直觉性的判断中也会出现。本文将描述三种应用于判断概率和预测价值的启发式,列出由这些启发式引起的偏见,并讨论这些偏见的实际应用和理论内涵。


    代表性


    人们考虑的许多概率问题都包含在以下某个类型当中:物体A属于类别B的概率是多少?事件A起源于过程B的概率是多少?过程B引起事件A的概率是多少?人们在回答这些问题时,会典型地依赖于代表性启发法,即通过用A来代表B,也就是通过比较B与A的相似程度来对概率进行评估。例如,如果A能高度代表B,人们就会认为A源自B的概率高。但如果A与B并不相似,人们就会认为A源自B的概率低。


    若想通过代表性对判断进行阐述,请考虑下面这个情况,若有某个人被他原来的邻居描述为:“史蒂夫非常腼腆,少言寡语,很乐于助人,却对他人或这个现实世界没多大兴趣。他谦恭有礼,做事井井有条,中规中矩,关注细节。”人们如何从一个可能的职业列表中(例如农民、售货员、飞行员、图书管理员或是医生)评估他从事某个特定职业的概率?又如何根据可能性的大小来将这些职业进行排序呢?在代表性启发法中,例如,史蒂夫是个图书管理员的概率是通过其与典型的图书管理员形象的代表性或相似性来进行评估的。事实上,对于这类问题的研究已经表明,人们对职业概率的排序与对职业相似性的排序方法完全是相同的。而这种关于概率的判断方法会导致严重的错误,因为相似性或代表性不会受到某些因素的影响,而这些因素却能影响对概率的判断。


    对结果的先验概率(prior probability)不敏感。对代表性没有任何影响而对概率有重要影响的其中一个因素是结果的先验概率,或基础比率。例如,在史蒂夫的那个例子中,在我们作出史蒂夫是个图书管理员而不是农民的理性评估时,是应该将农民比图书管理员人数更多的事实考虑在内的。然而,对基础比率的考虑并不会影响史蒂夫与图书管理员以及农民的典型形象的相似性。因此,如果人们通过代表性来评估概率,先验概率就会被忽视掉。我们在运用了先验概率的实验中检验了这个假设。在实验中,我们向受试者简要概述了几个人的性格,这几个人是从100位工程师及律师的样本中随意抽取出来的。而受试者需要通过对每个人的描述来评估其是工程师还是律师。在某个实验情境中,受试者被告知这些被描述的100人中,有70位工程师、30位律师。而在另一个实验情境中,受试者被告知这100人中,有30位工程师、70位律师。在第一种情境下,受试者判断任意一个描述是关于工程师的而不是关于律师的概率都应该高于第二种实验情境。因为第一种情境中工程师更多,第二种情境中律师更多。值得注意的是,我们通过贝叶斯定理还能知道每个描述的概率比率应该是(0.7、0.3)2,或是5.44。然而,这些受试者在这两个实验情境中都得出了同样的概率判断,这严重违反了贝叶斯定理。很明显,受试者认为某个特定的描述是在说工程师而非律师是通过描述对于这两个典型职业的代表程度而来的,而很少或根本就不考虑其所属类别的先验概率。


    当这些受试者没有其他信息来源时,他们会正确地利用先验概率。在没有人物描述的情况下,受试者判断某个人是工程师或律师的概率分别是0.7和0.3,这与基础比率正好符合。然而,当某个描述存在,就算这个描述没有任何信息,先验概率还是会被彻底忽略掉。对于以下描述的回应就阐明了这个现象:


    迪克是位30岁的男性,已婚,但无子女。他能力强,干劲足,承诺一定要在自己的领域功成名就。他很受同事的欢迎。


    这个描述所传达的信息与迪克是工程师还是律师的问题完全没有关系。因此,迪克是工程师的概率应该与工程师占样本总人数的比率相同,就如同我们没有得到任何有关迪克的描述时一样。然而,受试者却将迪克是工程师的概率判断为0.5,并不关注工程师占总人数的比率是0.7还是0.3。很明显,在没有任何证据和得到了一些无用的证据之后,人们的回应是不同的。在没有任何特定证据的情况下,先验概率能够被合理地应用;而在得知一些无用证据的情况下,先验概率就会被忽略。


    对样本大小的不敏感。在某个指定大小的样本中,评估获得某个特定结果的概率时,人们总会应用代表性启发法。即他们会通过某个样本结果与相关参数的相似性来评估这个结果的概率。例如,人们会认为随机抽取的10位男性的平均身高是6英尺,而这个结果就是由与相应参数(这个参数即是男性人口的平均身高)的相似性得来的。某个样本的统计数据与人口参数的相似性并不是由样本的大小来决定的。其结果就是,如果我们通过代表性来评估概率,判断出的某个样本的统计数据实质上就是独立于样本大小的。的确,当受试者评估大小不同样本的平均身高分布时,他们得出的分布是相同的。例如,人们在评估平均高度高于6英尺的概率时,无论样本大小是1000、100还是10位时,其得出的分布都是相同的。另外,即使样本大小的重要性在问题形成之时就被强调过,受试者还是不能体会其所起的作用。请考虑下面的问题:


    某个城镇有两家医院。在较大的那家医院里,每天大约有45个婴儿降生,而在较小的医院里,每天有15个婴儿降生。如你所知,其中50%的婴儿应该是男婴。然而,男婴实际的百分比每天都会有所变化,有时会高于50%,有时会低于50%。


    在一年的时间里,每家医院都记录了新生婴儿中男婴比率大于60%的天数。你认为,哪一家医院记录的天数更多?


    更大的医院:(21)


    更小的医院:(21)


    大致相同:其天数的不同在5%的范围内,(53)


    括号中的数值表示的是选择该答案的大学生人数。


    无论是大医院还是小医院,多数受试者判断出的60%以上新生儿是男婴的概率都是相同的。这可能是因为这些事件都来自于同样的统计资料提供的描述,因此关于总体情况的代表性相同。相反,以样本理论进行分析的话,在小医院里,超过60%的婴儿是男婴的天数肯定应该比大医院的多,因为大样本的男女比率不太可能偏离50%。很明显,这个统计学的基本概念与人类的直觉不相符。


    在对后验概率(即从一个整体而不是另一个整体中抽取样本的概率)的判断中,人们对样本大小的问题也不是很敏感。


    请考虑下面这个例子:


    想象有个装满球的罐子,其中有三分之二的球是一种颜色,三分之一的球是另一种颜色。某个人从罐子里取出了5个球,发现有4个是红色的,1个是白色的。另一个人取出了20个球,其中有12个是红色的,8个是白色的。这两个人中,谁更会认为罐子里三分之二的球是红色的,三分之一的球是白色的?每个人给出的概率各是多少?


    在这个问题中,假设两次抽取的先验概率相同,那对于4:1的那个样本来说,其正确的后验概率应为8:1;而对于12:8的样本来说,其后验概率为16:1。然而,大多数人却认为第一个样本为罐子里主要是红球的这个假设提供了更为有力的证据,因为第一个样本的红球比例要比第二个样本的高。这再次证明了,直觉性判断由样本比例主导,本质上并不受样本大小的影响。然而,样本大小却对实际的后验概率起着至关重要的作用。此外,对后验概率的直觉性评估比起正确的值来说并没有那么极端。在这类对概率的评估中,低估证据的影响反复出现。这种情况被称为“保守主义”。


    误解机会。人们期望由随机过程产生的事件序列能够代表这个过程的基本特征,即使这个序列很短。例如,人们在考虑抛硬币看正反面的问题时,总会觉得其顺序更可能是正,反,正,反,反,正,而不是正,正,正,反,反,反,因为后者并不能体现出抛硬币的公正性。因此,人们期望过程的基本特征不仅表现在整个序列中,还表现在局部的序列中。然而,局部代表的序列系统地脱离了概率的期望:因为局部代表的序列中选择很多,但可供选择的项却很少。抱有局部代表性这个想法的另一个后果就是有名的赌徒谬误。例如,在看到赌的指针长时间连续指向红色以后,大多数人就会错误地认为现在该是指向黑色的时候了。这是因为,相比再次出现红色,出现黑色会使序列更具代表性。人们普遍将概率视为可进行自我纠正的过程。在这个过程中,某个方向的偏离能引起其相反方向的偏离,以达到恢复平衡的目的。事实上,在概率的结果揭晓之时,偏离并不是被“纠正”了,而只是融为一体了。


    不只是天真的受试者才会误解概率。一项关于统计直觉的研究以有经验的心理学家为受试者,揭示了人们长期抱有的“小数法则”这一信念。这些受试者认为,他们抽取的样本即使很小,也具有很强的代表性。他们这样的回应反映了一个有效的假设:某个具有统计意义的样本结果可以代表样本所属的整个群体的性质,这与样本大小并无关联。因此,研究人员过于信任小样本的结果,高估了这些结果的可复制性。在实际的研究中,这些偏见会导致研究人员选择的样本不够大,并对仅有的发现作过多的阐释。


    对可预测性的不敏感。有时,人们需要作一些数值上的预测,例如,预测某只股票的走势、某种商品的需求量或是某场球赛的最后比分。这样的预测经常是通过代表性作出的。例如,假设有个人在听了关于某家公司的描述之后,需要预测这家公司的未来收益。那么,如果这个人听到的描述是正面的,他就会预测这家公司将有非常高的收益,因为高收益最能代表那个描述;如果描述是普通的,这个人就会觉得公司的表现也会很普通。描述的好坏程度并不受该描述的可信程度以及精确程度的影响。因此,如果人们仅仅依靠描述的好坏来预测,那么他们的预测就会对证据的可靠性和预测的预期精确度不敏感。


    这种判断模式违反了标准的统计理论。在标准的统计理论中,出于对可预测性的考虑,极端和预测范围受到了控制。当某件事的可预测性为零时,该预测的结果在任何情况下都应该是相同的。例如,如果在一些公司的描述中,没有听到有关其收益的信息,那么对所有这些公司未来收益的预测都应该是相同的。当然,如果某件事的可预测性非常高,那么预测值就会符合实际值,预测的范围也会等同于实际结果的范围。总之,可预测性越高,预测值的范围就会越广。


    一些关于数值预测的研究表明:直觉性预测违反了这条规则,因为受试者很少甚至没有考虑过可预测性的问题。在其中一项研究里,受试者看了几段文字,每段文字都描述了一位实习老师在特定实习课上的表现。一些受试者需要根据那几段文字描述以百分制来评价特定总体的课堂质量,其他受试者则需要预测这些实习老师在5年以后的成就,同样要以百分制来打分。这两种情况下作的判断是相同的,即预测某一未来事件(老师在5年以后的成就)与评估当前事件所依据的信息(实习课的课堂质量)是相同的。作这些预测的人肯定也意识到了用某位老师5年以前的实习课来预测她的教学能力过于局限。不过,他们的预测与评估一样极端。


    效度错觉。前面已经介绍过,人们常会挑选输入信息(例如对某个人的描述)中最具代表性的特点(例如职业)来进行预测。他们在预测时的自信程度主要取决于相关信息代表性的高低(即所选特点与输入信息的吻合程度),与限制预测准确性的因素关系不大。因此,人们在听到与图书管理员的典型形象相符合的性格描述后,就会极有自信地作出所描述的人就是一个图书管理员的预测,即使这个描述是片面的、不可靠的或是过时的。由于预测特点与输入信息非常吻合而产生的没有保证的自信就被称为效度错觉。即使当判断者意识到限制其预测准确性的因素时,这种错觉仍然存在。许多文献已经证实:甄选面谈的出错率很高,但即使心理学家知道这一点,在甄选面谈时,他们还是常会在预测中表现出很大的自信。尽管不断有证据表明甄选面谈是不恰当的,但临床上仍然持续依赖这种访谈方式,这也充分说明了效度错觉强大的影响力。


    预测需要依靠输入,而输入模式的内部一致性就是决定人们在预测时自信程度的主要因素。例如,相比某个在一年级得了许多A但也得了许多C的学生来说,人们在预测一年级得了许多B的学生的平均绩点时会更有自信。高度一致的模式最常出现在输入变量过多或相关度高的时候。然而,相关统计学的结果证实,若规定了输入变量的效度,基于几个这种输入的预测会比输入过多或相关情况下的准确性高。因此,输入变量过多虽然可以增加自信程度,但却会降低预测的准确性。而人们在预测时所抱持的信心常会超出他们的能力范围。


    误解回归性。假设让一群儿童做两套等效的能力测试题。如果你挑选出了在其中一套能力测试题中表现最好的10个人,那么他们在另一套测试中的表现通常会让你失望。相反,如果你挑选的是在其中一套能力测试中表现最差的10个人,你就会发现,他们在下一次测试中平均都比前一次测试表现得好。一般来说,假设变量X和Y有相同的分布。如果你挑选的X的平均分数偏离了X的均值K个单位,那么,Y的平均分通常偏离Y的均值的程度就会少于K个单位。这些观察表明了一个普遍的现象,即回归平均值现象。这个现象是高尔顿在100年前首次证明的。


    在正常的生命过程中,你会遇到许多回归平均值的例子。例如,在比较父亲与儿子的身高,丈夫与妻子的智力水平或是某个人连续测试的不同表现时。不过,人们没能对此现象产生正确的直觉。首先,人们不能预料一些肯定会发生回归平均值的情境。其次,当他们辨别出回归平均值的发生时,总会捏造出虚假的因果解释。有这样一个信念:预测结果应该最大程度代表输入信息,因此,结果变量的值也应与输入变量的值一样极端。我们提出,回归平均值的现象之所以难以掌握就是因为与上述信念不相容。


    未能意识到回归平均值的重要性将会带来严重的后果。下面这个例子就说明了这一点:在一次关于飞行训练的讨论中,有经验的指导员注意到,若赞扬某位飞行员着陆非常平稳,该飞行员下一次着陆就会表现得糟糕;若某位飞行员着陆较差,该飞行员下一次着陆就会有很大进步。这些指导员总结道,口头表扬对学习是有害的,而口头批评却大有益处,这与广为接受的心理学定律相左。由于回归平均值的存在,这个结论是没有根据的。就像其他重复的测试一样,每次表现糟糕以后总会有进步,而表现优异以后又总会变得糟糕,即使指导员没有对学员的第一次表现给予任何回应。指导员形成了惩罚比奖赏更有效这个错误且有潜在危害的结论,因为他们正好在着陆表现优异后表扬了这些学员,在着陆表现糟糕后批评了这些学员。


    因此,未能理解回归效应会导致人们高估惩罚的有效性,低估奖赏的有效性。无论是在社会交往中,还是在训练中,表现得好都会有奖赏,表现得差也都会有惩罚。因此,行为最有可能在惩罚之后得到改进,在奖赏之后变得更坏,这其实就是一种回归现象。其结果就是:人们碰巧因为惩罚他人得到了奖赏,因为奖赏他人得到了惩罚。然而,人们通常不会意识到这种偶然性。事实上,难以掌握回归性主要是因为奖赏与惩罚带来的结果非常明显,因此,这个领域的学者也没有注意到它。


    可得性


    有时候,人们会通过能想到例子或事件的容易程度来评估这类事的频率或概率。例如,你可能会通过回忆自己认识的人中有多少位是心脏病患者来估测中年人患心脏病的风险。同样,你也可能会通过想象某个企业可能会遇到的各种难题来估测其倒闭的概率。这种判断启发式被称为可得性。可得性对于评估频率或概率来说,是个很有用的线索,因为相比频率较低的类别的例子来说,我们可以更好、更快地得到频率较高的类别的例子。然而,可得性并不受频率和概率的影响。因此,依赖于可得性会导致预测的偏见。我接下来将说明其中的一些偏见。


    因例子的可提取性导致的偏见。当用某个类别的例子的可得性来判断该类别的大小时,例子很容易提取的类别会比频率相同但例子较难想到的类别显得更大。在证明此效应的基本研究中,受试者听到了一串知名人士的名字,男女均有。接着,他们需要判断这串名字中男性是否比女性多。不同组的受试者听到的名字并不相同。在一些名单中,男性更有名;而在另外一些名单中,女性则更有名。受试者都错误地判断了所有名单的类别(性别)。他们的判断显示,名人更多的类别,其数目也越大。除了熟悉度以外,显著程度也会影响例子的可提取性。例如,看见房子失火对这类事件主观概率的影响可能会比在报纸上读到失火这件事的影响要大。另外,最近发生的事有可能会比之前发生的事更容易获得。对于交通事故的主观概率会在见到一辆翻倒在路边的车后暂时升高,这很平常。


    因搜索集合的有效性导致的偏见。假设从某个英文文本中随机抽取一个词(含有3个或更多字母的词)。这个词更有可能是以r开头还是以r作为第三个字母?人们在回答这个问题时,会回忆首字母为r的单词(例如road)以及第三个字母为r的单词(例如car),然后通过想到这两个词的容易程度来评估相对频率。因为从记忆中搜寻单词的首字母要比搜寻其第三个字母更为容易,所以大多数人都判断以某个辅音开头的单词要比第三个字母为该辅音的单词多。但实际上,例如r或k的辅音字母,出现在第三个字母的频率都要比出现在开头的频率高。


    不同的任务会引发不同的搜索集合。例如,假设你被要求评估抽象词(比如想法、爱)和具体词(比如门、水)出现在书面英语中的频率。回答这个问题自然而然的方法就是搜寻这些词可能出现的情境。联想起提到抽象概念(爱情故事中的爱情)的情境似乎要比联想起提到具体词(例如门)的情境更为容易。如果用单词出现情境的可得性来判断这些单词的频率,抽象词就会多于具体词。这一偏见在最近的研究中已被发现,此研究表明,判断出抽象词的出现频率比具体词的出现频率高很多,与客观频率相等。相较于具体词,抽象词还会出现在更多的语境中。


    想象力的偏见。有时,你需要评估某类事件发生的频率,这类事件的实例没有储存在你的大脑中,但你可以通过一定的规则构建一些实例。在这样的情况下,你通常会构建几个实例并通过构建这些实例的容易程度来评估其频率或概率。然而,构建实例的容易程度并不总能反映出真实的频率,这种评估模式很容易导致偏见。下面这个例子将会说明这一点:请考虑一个10个人的团体,他们想组成一个有K个成员的委员会(2小于或等于k小于或等于8)。他们可以组成多少个不同的且有K个成员的委员会?这个问题的正确答案是二项式系数(10k),当K等于5时,达到其最大值252。这明确表明了,K个成员的委员会数量等于(10减k)个成员的委员会数量,因为任何有K个成员的委员会界定了一个独有的(10减k)个非成员的团体。


    若想不通过计算就回答这个问题,则需要在心里构建有K个成员的委员会,然后通过构建这些委员会的容易程度来评估它们的数量。人数较少的委员会(比如只有两人的委员会)会比人数较多的委员会(比如有8人的委员会)更容易构建。因此,如果通过想象力或是构建的可得性来评估频率的话,规模小的委员会似乎就会比规模大的委员会的数量更多,这与对称的钟形函数正好相反。事实上,在要求天真的受试者评估规模不同的委员会的数目时,他们的估计是委员会规模的单调递减函数。例如,他们评估的有两个成员的委员会的中值是70,有8个成员的委员会的中值是20(正确答案应该是两种情况下都是45)。


    在真实情境中,想象力对概率的评估起着重要的作用。例如,通过想象某次探险中无法应对的意外事件来评估这次探险的风险。如果能想到许多这样生动的意外事件,这次探险就会显得尤其危险,尽管想到这些灾难的容易程度并不能反映出它们实际发生的可能性。相反,如果没能想到某些可能的危险,那将要承担的风险就会被低估。


    相关性错觉。L·J·查普曼与J·P·查普曼曾描述过一种有趣的偏见,这种偏见是在判断两个同时发生的事件的频率时产生的。他们向受试者提供了几个假设的精神病患者的信息。信息包括每位病人的临床诊断数据和一幅由病人画的人像画。然后,受试者需评估每个诊断(例如妄想症或疑心病)以及人像画中不同特征(例如奇怪的眼睛)的频率。受试者明显高估了自然的联想物同时发生的频率,例如疑心病和奇怪的眼睛的频率。这种效应被称为相关性错觉(illusory correlation)。受试者错误地判断了得到的数据,“重新发现”了许多普遍但无根据的临床知识,这些临床知识就涉及人像画测试的相关解释。相关性错觉效应极度抗拒相互矛盾的数据。即使在症状与诊断呈负相关的情况下,相关性错觉仍然存在,它使受试者不能察觉到真正存在的关系。


    可得性为相关性错觉效应提供了自然的解释。根据两个事件相互关联的强度,可以判断出它们同时发生的频率。当两个事件关联性强的时候,你可能会认为它们经常同时发生。因此,强关联常被判断为经常同时发生。根据这个观点,疑心病与奇怪的眼睛的关联性错觉就是由疑心病常会与奇怪的眼睛而引起的,而不是因与人体其他部位相联系而引起的。


    从我们的人生经历可知,总的来说,相比发生频率低的例子,我们更能又好又快地回忆起发生频率高的例子,更容易想到可能发生的事,而不是发生概率不高的事。当事件频繁地同时发生时,这两个事件之间的关联性会得以增强。所以,人们可以自由使用可得性启发式的程序,具体是通过提取、构建和联想等相关大脑运作的容易程度来估测类别的数量、事件的可能性或是事件同时发生的频率。然而,前面的例子已经说明,这个有价值的估测过程会导致系统性错误。


    判断与锚定


    在许多情况下,人们都会通过初始值来确定最后的答案。初始值或起始点,可能是从问题形成之时得到的提示,也可能是在稍微计算之后得到的结果。但无论是前者还是后者,其调整都不会太过充分。不同的起始点会产生不同的估测,都会偏向于初始值。我们将这个现象称为锚定。


    不充分的判断。在某个证明锚定效应的实验中,受试者需要估测不同的数值,。在猜测每一个数值的时候,受试者面前一个范围为0~100的幸运转盘都会旋转一次。受试者首先需要说明,转盘指针指向的数值比起实际值来说是高了还是低了,然后,再将转盘的指针拨向自己估计的值。不同的小组面对的是不同的初始数字,而这些随机的数值对估计有着巨大的影响。,转盘指针指向10的小组估测的中值是25,而指针指向65的小组估测的中值是45,其中,10和65就被受试者视为起始点。对于估计要精确的要求也并没能削弱锚定效应的影响。


    锚定不只是在受试者被给予相关起始点的情况下发生,当受试者依赖于未完成的计算结果进行估测时,这种情形也会发生。关于直觉性数值估计的研究就说明了这一效应:在黑板上写出一些算式,让两组高中生在5秒之内估计结果。


    其中一组学生估计下面这个算式的结果:8*7*6*5*4*3*2*1


    另一组学生估计以下算式的结果:1*2*3*4*5*6*7*8


    想要快速回答这样的问题,人们可能会先计算几步,然后再通过外推或调整得出结果。由于判断的根据并不充分,这样的过程就会导致低估。另外,就前几步的计算结果而言(从左到右进行计算),降序序列得到的结果肯定会比升序序列的结果大。那么,你就会认为第一个序列的结果大于第二个序列的结果。这两种判断都得到了证实。对于升序序列中值的估计为512,对降序序列估测的中值是2250,但正确的答案应该是40320。


    评估连续事件与非连续事件的偏差。在巴希勒最近的一次研究中,受试者需要选两个事件中的一个来打赌。该研究应用了三种类型的事件:(1)简单事件,例如从一半是红球一半是白球的口袋中取出一个红球;(2)连续事件,例如从90%是红球、10%是白球的口袋中连续7次抽取红球;(3)非连续事件,例如从10%是红球、90%是白球的口袋中连续取球7次,至少取出一个白球。在这个问题中,相比简单事件的那个赌(概率是0.50),绝大多数受试者都更愿意打连续事件的那个赌(概率是0.48)。而相比不连续事件(概率是0.52),受试者又更愿意打简单事件的赌。因此,在这番比较中,大多数受试者倾向于打的赌都是相对不太可能发生的事件。这样的选择模式证明了一个普遍的发现。对赌的选择以及对概率的判断的研究表明:人们易于高估连续事件的概率,低估非连续事件的概率。这样的偏见是由锚定效应引起的。基本事件的概率(即任意某个阶段的成功)提供了估测连续事件以及非连续事件概率的自然起始点。因为从出发点进行调整显然不会充分,对于上述两种事来说,最后的估测都会与基本事件的概率相接近。请注意,某个连续事件的整体概率会比其中每个基本事件的概率低,而非连续事件的整体概率会比其中每个基本事件的概率高。由于锚定的影响,在连续的问题中,整体概率会被高估;在非连续问题中,整体概率会被低估。


    评估复合事件的偏见在计划的情境中尤其明显。成功完成某个任务(例如推广一个新产品)具有连续的特征:要想某个任务成功,该任务中包含的每一个事件就都必须发生。如果需要发生的事件数量众多的话,即使每个事件都很有可能发生,其整体成功的概率也可能会很低。高估连续事件概率这个普遍的倾向会使人们在评估某个计划成功的可能性或能否按时完成时过度乐观,但却缺乏根据。相反,非连续结构总会遭遇风险性的评估。一个复杂的体系,例如核反应或人的身体,如果其中的某个部分出现问题,整个体系就会出现故障。即使每个部分失败的可能性都很小,但若包含很多部分,那么整体失败的概率也可能会很高。因为锚定效应,人们会倾向于低估复杂系统失败的概率。因此,我们有时可以从事件的结构中推测出锚定偏见的方向。连续事件的链式结构会导致高估,非连续事件的漏斗式结构会导致低估。


    评估主观概率分布时的锚定。在决策分析中,专家时常需要以概率分布的形式来表示他们对某个数值(例如某一天的道琼斯指数)的信念。这样的分布通常是根据专家选择的不同数值构建的,而这些数值与其主观概率分布的百分位相对应。例如,判断者可能会被要求挑选出一个数字X90。这样的话,他认为这个数字将会超过道琼斯指数的主观概率就是0.90。也就是说,他选择数字X90,所以愿意接受道琼斯指数不会超过这个数值的比率是9:1。通过几个这样对应于不同百分位数的判断,我们可以构建出道琼斯平均指数的主观概率分布。


    通过搜集多个不同数值的主观概率分布,还有可能测试出判断者的度量或校准是否合适。如果待估量值的真实值有II%分布在某位受试者规定的XII值之下,那么这个受试者就在一系列问题中进行了恰当的(或外部)校准。例如1%的量值,其真实值应该分布在X01之下,即X99之上。因此,98%的问题,真实值应该在X01到X99的置信区间内。


    几位研究人员已从大量的判断中观察到许多量值的概率分布。这些分布表明了其与恰当的校准之间巨大且系统的偏差。在多数研究中,30%的问题,其待评估量的真实值或小于X01,或大于X99。也就是说,受试者设定的置信区间过小,与他们关于待估量的知识所能证明的相比,反映出了更大的确定性。经验不足与经验老到的受试者都存在这种偏差,而引入合适的积分规则虽能为外部校准提供刺激,但也不能彻底消除偏差。这种效应至少部分是因锚定引起的。


    例如,为了选择X90作为道琼斯指数,人们会首先想到自己对道琼斯指数最佳的估测,然后将这个数值上调。如果这个调整和大多数其他调整一样是不充足的,那么X90就不会是极端的。同样的锚定效应在选择X10时也会发生,这时,人们就会将最佳估测向下调整。所以,X10到X90之间的置信区间将会太小,而待估量的概率分布就会更紧密。一种程序能够系统地改变主观概率分布,使最佳估测值不作为初始值,这也支持了这种解释。


    某个给定的量(比如道琼斯指数)的主观概率分布可以通过两种不同的方法得以实现:(1)要求受试者选择与自己的概率分布的特定百分位数相符合的道琼斯指数;(2)要求受试者估测出的真实值超过特定数值的概率。这两种方法在形式上是等同的,因此应该产生相同的分布。然而,这两种方法体现出的是不同锚定下不同的判断模式。在方法(1)中,自然的起始点是人们对变量的最佳估测。此外,在方法(2)中,受试者可能将锚定点定在了问题中给定的数值上。或者,他可能将锚定定位在相等的概率上,即50,50的概率,因为这是估测可能性通常的起始点。无论哪种情况,方法(2)得到的概率应该不会像方法(1)那样极端。


    为了对比这两种方法,研究人员给一组受试者24个量值(例如从新德里到北京的空中距离),并要求他们在每一个问题上估计X10或X90。另外一个组的受试者得到的是第一组受试者对24个数值中每个评估结果的中值。他们被要求评估每个给定的数值超过相应量值的真实值的概率。在没有任何偏见的干扰下,第二组受试者应该提取出和第一组相同的概率,即9:1。然而,如果使用50%的概率或给出的数值作为锚定,第二组的概率也应该更不极端,即接近于1:1。事实上,第二组给出的所有问题的概率中值都是3:1。当对两组受试者的判断进行外部校准时,发现第一组的受试者太过极端,这与早前的研究结果相符合。他们估测的发生概率为0.10的事件实际上有24%发生了。相反,第二组受试者太过保守。他们认为平均概率为0.34的事件实际发生的概率只有26%。这些结果说明了校准的程度取决于引导的程序。


    讨论


    本文关注的是依赖于判断启发式的认知偏见。我们不能把这些偏见归因于激励效应,比如一相情愿的想法或是因为报酬和罚款而扭曲的判断。实际上,尽管受试者被鼓励应尽量准确,而且答案正确的话还能得到奖赏,但还是会犯前面所提到的严重的判断性错误。


    对启发式的依赖性以及偏见的普遍存在,并不局限于普通人。有经验的研究人员在凭直觉进行思考时,同样易于犯偏见的错误。例如,受过广泛训练的人在进行直觉判断时,也会有在没能充分考虑先验概率的情况下预测最能代表数据的结果这一倾向。尽管这些研究人员在统计学方面的经验可以使其避免类似于赌徒谬误的基本错误,但他们的直觉性判断还是容易在更为复杂的问题中犯类似的谬误。


    类似于代表性和可得性等有用的启发式可以得以保留,即使它们有时会导致预测或估测的错误。这一点并不会使我们惊奇,而可能会使我们惊奇的是,人们不能从其人生经历中推断出基本的统计学规则,例如回归平均值或是样本大小对样本可变性的影响。尽管在人的生命历程中,每个人都会遇到许多这样的例子,很少有人能独自发现样本和回归性的原则。我们不能从每天的经历中学习到统计学的规则,因为相关的例子不能被恰当地解释。例如,人们不会发现,某文本中连续几行单词的平均词汇长度比连续几页中单词的平均长度变化更大,因为无论是几行或者几页,人们根本就不会注意到单词平均长度的问题。所以,人们不能了解到样本大小和样本可变性的关系,尽管相关数据比比皆是。


    缺少恰当的编码也能解释为什么人们在判断概率时通常不能察觉到偏见。人们可以通过在分配的同样概率的事件中保持实际发生事件的比例,来了解自己的判断是否是外在度量的。但是,用判断所得的概率来将事件分组并不合适。那么,在分组缺乏的情况下,某个人就不可能知道他分配的有0.9或更高的概率的预测,有50%会真正发生。


    认知偏差的经验分析对于判断的概率理论及应用角色方面都有一定的意义。现代决策理论将主观概率视为某个理想化的人量化的观点。具体来说,对某个给定事件的主观概率可被定义为某个人是否愿意接受有关这个事件的赌注。如果这个人在不同赌注之间的选择满足于特定的规则,比如概率论的公理,那么内在一致或是连贯的主观概率就可以被引申出来。引申出的概率是主观的,原因是不同的人可以对同样的事件作出不同的概率评估。这种方法最主要的贡献是提供了对概率严格主观的解释,这个解释能够应用于独特的事件,也能应用于理性决策的普遍理论中。也许应该注意一点,我们有时可能从对赌注之间的偏好中推断出主观概率,但通常主观概率并不是由此而形成的。某个人愿意给A队下赌注而不是B队,是因为他相信A队更有可能会赢,他并不是从自己对赌注的偏好中推断出这个想法的。因此,在现实中,主观概率会决定我们对赌注的偏好,但我们并不是从这些偏好中推断出主观概率的,就如同理性决策中不证自明的理论一样。


    概率内在的主观本质使许多学生相信一致性或内在一致性是判断概率唯一有效的准则。从主观概率的形式理论来看,任何内在一致的可能性判断和其他判断都是一样的。这个准则并不完全令人满意,因为内在一致的主观概率可能和人们抱有的其他信念相抵触。例如某个人对抛硬币游戏所有可能结果的主观概率就反映了赌徒谬误。即他推测硬币更可能是呈反面,因为已经连续出现了多次正面。这样的判断可能是有内在一致性的,因此,根据形式理论,这是一个恰当的主观概率。然而,这样的概率与硬币是没有记忆的这一人们普遍持有的信念不相符,因此不能产生序列依存。若对判断的概率进行充分和理性的考虑,就会发觉对内在一致性的解释并不充分。判断必须与人们持有的所有信念相容。但不幸的是,还没有简单且正式的方法去测评一系列概率的判断与判断者整体信念系统的相容性。不过,理性判断者会努力争取这种相容,即使利用内在一致性能更容易完成判断和评估。特别是,理性判断者会尝试使自己对概率的判断与自己相关的知识、概率的规则以及个人的判断启发式和偏见相容。


    结语


    本文描述了在不确定的情况下进行判断的三种启发式:(1)代表性。人们通常在需要判断物体A是否属于类别B或是事件A是否属于过程B时,就会使用代表性;(2)事件的可得性。当人们需要估测某类事件发生的频率或是某个特定进展的合理性时,就会使用可得性。(3)通过锚定进行调整。当相关数值可得时,许多预测都会用到锚定。使用这些启发式不仅能节约很多时间,大多数时候也很奏效,但它们也会导致一些系统性的错误。更好地理解这些启发式和它们带来的偏见,能够在不确定的情境下提高判断和决策的质量。


友情链接

Copyright © 2023 All Rights Reserved 版权所有 北京物流信息联盟