论样本与因果律的脆弱性

——读《统计陷阱》有感

道德

一拿到这本书,给我的感觉就一个字——薄,确实如此一共才70页,分为10章,为总分式结构,前九章具体分析,最后一章总结。大体来说,书中举了很多事例也有很多形象的插画,所以我读起来觉得没有什么难以理解的地方。下面具体说说我对《统计陷阱》的理解。

整本书所说的陷阱其实就是围绕“样本”来讲的,分为两个方面,“样本的来源”(也称抽样)与“样本的表现”

样本的来源

先说样本的来源。确实,大部分统计的核心就是抽样。一个以抽样为基础的报告如果要有价值,就必须使用具有代表性的样本,这种样本排除了各种误差。忽视抽样所隐含的误差将导致一些愚蠢的举动。人们有时会为了一个数学上可论证却小得没有意义的差别费尽力气。这种行为是对这句古训的藐视:“只有当差别有意义时才能称之为差别。”这句古训也应该辩证的去看待。

以下的话我觉得可以作为整本书识别“陷阱”的核心——“样本有偏的趋势可以自动地操纵结果,使其变得扭曲。无形的误差与有形的误差一样容易破坏样本的可信度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。”这以后用到辩论中必定也是很有价值的,肯定有很多同学发现了。样本的来源必须提供足够多的信息才有说服力,比如说“显著性程度”什么的,对比的对象,样本的数量与区别,等等。

样本的表现

再说样本的表现,就是各种视觉上有误导的图像表现,不能说是错误的,只能说是不恰当的表现形式。并不是所有的统计都是绝对的,将“正常的”与“期望的”混为一谈导致事情变得更糟。这也是一点需要注意的。

“如果你想证明某事,却发现没有能力办到,那么试着解释其他事情并假装它们是一回事。在统计资料与人类思维冲撞所引起的耀眼光芒中,几乎没有人会发现它们的区别。不相匹配的数据是保证你处在有利位置上的武器,而且通常如此。”这也是表现误区的一种。

相关关系与因果关系

最后,也是最重要的,谈谈我对这本书影响最深刻的部分,也是我认为最有价值的地方——“相关关系与因果关系”。先复制书上几句话来凑凑字数——“但这是一个古老的谬误,然而它仍频繁地出现在统计资料中,并被大量让人印象深刻的数据所伪装。这个谬误是:如果 B 紧跟着 A 出现,那么 A 一定导致 B。然而,更大的可能性是两个周素并不互为因果,而同为第三个因素的产物。”之所以说它好,是因为它使我联想到了休谟的怀疑论——一个打破了因果关系的思想,曾一度导致建立于因果律之上的科学世界濒临破产。毕竟他揭穿了科学知识的因果关系不过是我们习惯性的联想,等于说是抽掉了构成知识最重要的因果律,科学知识不再具有先天普遍性的必然性。

太阳出来了,地上的石头发热了。很多人理所应当(注意,是理所应当)地认为,石头发热是阳光照射所导致的。因为太阳出来了,所以石头发热。很明显的因果关系。虽然我们能观察到一件事物随著另一件事物而来,我们并不能观察到任何两件事物之间的关联。

所以休谟说:“我们无从得知因果之间的关系,只能得知某些事物总是会连结在一起,而这些事物在过去的经验里又是从不曾分开过的。我们并不能看透连结这些事物背后的理性为何,我们只能观察到这些事物的本身,并且发现这些事物总是透过一种经常的连结而被我们在想像中归类。”也因此我们不能说一件事物造就了另一件事物,我们所知道的只是一件事物跟另一件事物可能有所关连。

太阳

这里,我再举一个例子来解释一下这段话(例子来自于知乎),碳酸钠+盐酸 = 氯化钠+二氧化碳这一因果关系,最初必然来自于经验。假设一个人完全没有关于实验结果的经验,并且没有任何相关的化学知识,他必然没有办法从 碳酸钠+盐酸 这一原因依据任何先验法则推论出 氯化钠+二氧化碳 这一结果。原因中并不天然地包含着结果,在没有经验的情况下,从一个事物中产生任何事物都是可想象的,并没有办法说一定会产生出某一特定事物(无法从作为原因的事物中运用理性推论出作为结果的事物)。我们只有依赖经验才能发见这种事物间的联系。

因此,因果关系的基础是经验。

我们总是经验到 碳酸钠+盐酸 = 氯化钠+二氧化碳 这一事实(它们总是相伴出现),碳酸钠+盐酸在前,而氯化钠+二氧化碳在后,于是我们就把 碳酸钠+盐酸 看作产生 氯化钠+二氧化碳 的原因。更一般的情况是,甲和乙总是先后出现,甲的后面总是伴随着乙,我们便把甲当作乙的原因。除此之外,我们无法知道甲和乙具有的更深层次的联系(如果我们真的知道些什么,那么在经验之先我们就能判断将会发生什么)。到目前为止则可以说明,我们只是用因果关系来描述相伴出现的经验事实。

因果关系基于经验,但只是一时一地的经验(只对发生过的事实有权发言),而要想对未来做出预测,就要基于归纳原理。即,过去甲和乙总是先后出现,甲的后面总是伴随着乙,所以我们判断未来甲的后面一定有乙(过去总是碳酸钠+盐酸 = 氯化钠+二氧化碳,未来也一定是这样)。

但可惜的是,归纳原理我们无法证成它,即无法说明未来必定与过去相似(可能性之一是,也许有一天,自然的法则会改变,没有任何理由可以说明宇宙以后一定也是这个样子)。我们没有绝对的理由证明归纳原理一定是正确的。

因为归纳原理可能是错误的,导致因果关系无法向未来、类似的事物推广,碳酸钠+盐酸 = 氯化钠+二氧化碳 并不一定总是正确的。过去是1000亿次是这样,但未来1000亿+1次未必还是这样(试想,应该如何论证,未来1000亿+1次结果仍相同)。另外,我们没有掌握任何实质性的规律,我们只是对事实进行了描述,把一方设定成原因,一方设定成结果。我们不能说它是错的,但是它一定不是肯定正确的。

人类有依赖因果关系的本能,这种本能则是来自我们神经系统中所养成的习惯,长期下来我们便无法移除这种习惯,但我们并没有任何论点、也不能以演绎或归纳来证明这种习惯是正确的,就好像我们对于世界以外的地方一无所知一样。就像罗素在《西方哲学史》序言所说——“人为万物立法”,中国古代大儒所言——“为天地立心”,恐怕也是如此吧!

一句句“因为”**“所以”说的理所当然,究其根本是没有关心其联结,如果硬是要说感官经验使然,习惯期待为之,这套怀疑论是无法辩倒的。因此,怀疑者顶好是守住自己的范围,并且发挥出由较深奥的研究而发生的那些哲学的反驳。在这里,他似乎有充分取胜的地方,他可以合理地主张说,在存在于记忆证据或感官证据以外的任何事实方面,我们的全部证明都是由因果关系来的;他可以合理地主张说,我们对于这种关系并没有别的观念,我们只是对恒常在一块会合着的两个物象有一种观念;他可以合理地主张说,我们并没有什么充分的论证可以使我们相信,我们经验到常在一块会合着的那些物象,在别的例证下,也照样会合在一块;他还可以合理地主张说,除了习惯或我们天性中一种本能以外,并没有别的情节可以使我们得到这种推测,这种本能自然是难以反抗的,不过它也和别的一些本能一样,也可以是错误的、骗人的。一个怀疑家如果坚持这些论点,那他就充分表现出他的力量来,或者可以说,表现出他自己以及我们全人类的弱点来,而且他就似乎(至少在当下)消灭了一切信念和确信。

最后康德用先天范畴很巧妙的绕过了这个问题,这里就不再说了。但是很多思考方式还是值得我们深思的⋯⋯

星空