“我对语言的强调也源于一个坚定的信念,即语言会塑造我们的思想。你无法回答一个你提不出来的问题,你也无法提出一个你的语言不能描述的问题。”

行动超越了言论的人,其言论将经久不衰。

作者:[美]朱迪亚·珀尔、达纳·麦肯齐
译者:江生、于华
内容简介
《为什么—关于因果关系的新科学》一书,由人工智能领域的权威专家朱迪亚·珀尔及其同事领导经过多年的研究探索,突破多年的因果关系革命迷雾,厘清了知识的本质,确立了因果关系研究在科学探索中的核心地位。

事实上,因果关系科学真正重要的应用体现在人工智能领域。作者在本书中回答的核心问题是:如何让智能机器像人一样思考?换言之,“强人工智能”可以实现吗?借助因果关系之梯的三个层级逐步深入地揭示因果推理的本质,并据此构建出相应的自动化处理工具和数学分析范式,作者给出了一个肯定的答案。作者认为,今天为我们所熟知的大部分机器学习技术,都建基于相关关系,而非因果关系。要实现强人工智能,乃至将智能机器转变为具有道德意识的有机体,我们就必须让机器学会问“为什么”,也就是要让机器学会因果推理,理解因果关系。或许,这正是我们能对准备接管我们未来生活的智能机器所做的最有意义的工作。 
作者简介
朱迪亚·珀尓(Judea Pearl),加州大学洛杉矶分校计算机科学教授,“贝叶斯网络”之父,已出版3本关于因果关系科学的著作,分别为《启发法》、《智能系统中的概率推理》和《因果论:模型、论证、推理 》。
达纳·麦肯齐(DanaMackenzie),普林斯顿大学数学博士,自由科学记者,知名科普作家,著有《无言的宇宙》等。 
读后感
人们还记得2016年, AlphaGo在系列赛中战胜了世界围棋顶尖高手李世石,这一举动让世人震惊。而这个AI产品的胜利,几乎都归功大数据。因此,曾有人说道:“人工智能赢了不可怕,如果它假装输给人类,那才更加可怕。”此言背后道出了机器与人脑之间的实质性差别。那就是机器只会学习和处理数据,却无法像人脑一样去深度地思考和模拟数据之外的其他的无限可能。人工智能领域先驱、2011年图灵奖得主美国人朱迪亚·珀尔直言 “数据非常愚蠢”。他认为,目前人工智能学习系统几乎依赖于以统计模式运行,严重限制了AI的发展。
珀尔认为拥有“因果关系”的大脑是领先AI的关键。作为计算机科学家,珀尔致力于破解因果关系背后的数学逻辑,建立一个可算法化的因果推理模型,让计算机学会这个模型,创造出懂得如何思考和推理的“人工智能科学家”。
珀尔的研究成果—“结构因果模型(SCM)”,该模型由概率图模型、结构方程模型(SEM)和反事实算法组成。概率图模型是SCM主要的数学基础,由贝叶斯网络构成,用以计算多个变量间的联动概率,有助于理解数据之间的内在联系。
在现实世界里,一个变量周边可能存在着无数混淆因素,想要抵消这类因素的影响必须做随机对照试验(RCT)。珀尔的研究成果是将两个变量置入他的结构因果模型,并列出模型要求的所有相关因素,而又根据规则排除了其他混淆因素。如果两个变量之间依然存在协同变化,就有充分的权利得出结论,两者之间存在因果关系。
跟着专家学习了一番因果关系的研究定论,帮我们拎清了因果关系及其变量之间的奥秘,我们可以将这个理论实践于生活中的方方面面。虽说本书一点都不文艺,但是却为我们分析掌握这个大千世界的点滴打开了一扇明窗。
反事实

当我们感兴趣的科学问题涉及反思性的思考时,我们通常会诉诸另一种类型的表达形式,这种表达形式是因果推断科学独有的,我们称之为“反事实”(counterfactual)。例如,假设乔在服用了药物D一个月后死亡,那么我们现在关注的问题就是这种药物是否导致了他的死亡。为了回答这个问题,我们需要想象这样一种情况:假如乔在即将服药时改变了主意,他现在会活着吗?

反事实并非异想天开之物,而是反映了现实世界运行模式的特有结构。共享同一因果模型的两个人也将共享所有的反事实判断。反事实是道德行为和科学思想的基石。回溯自己过去的行为以及设想其他可能情景的能力是自由意志和社会责任的基础。反事实的算法化使“思维机器”(thinkingmachine)习得这种人类特有的能力,并掌握这种目前仍为人类所独有的思考世界的方式成为可能。

一起探索因果革命对人工智能的影响。我坚信强人工智能是一个可实现的目标,也是一个完全无须恐惧的目标,因为我们在实现它的过程中纳入了因果关系。因果推理模块将使智能机器有能力反思它们的错误,找到自身软件程序中的弱点,并能像一个道德实体那样思考和行动,自然地与人类交流它们自己的选择和意图。

摘抄
1.  思维胜于数据。
2.  如果随机对照实验的发明者能借鉴我们对因果效应的理解,那么早在费舍尔之前的500年就应该被发明出来了。
3.  行动超越了言论的人,其言论将经久不衰。 
4. 语言也是一种束缚,提供了一种工具的同时,就加上了一层束缚。

我对语言的强调也源于一个坚定的信念,即语言会塑造我们的思想。你无法回答一个你提不出来的问题,你也无法提出一个你的语言不能描述的问题。

法尚应舍何况非法!禅宗不立文字,要在本质上破除 提问和回答的范式。

借用豆瓣网友提供大体几个大的框架:

1 三级因果思维,原来我们的思想还能分出个三个层次,分别是观察,干预和想象,现在的人工智能还只达到第一级,大数据阶段。

2 回归均值,你知道姚明的女儿以后会长多高吗,在这你可以得到答案,很有趣。

3 因果模型,这个世界本应该是客观的存在,但我们只能主观去认识,脑洞大开。

4 贝叶斯方法,你有没有发现,自己很没谱,说好的坚定不移变成了听风就是雨,你的观点随着事实在改变。

5 判断力六层级,我们生活用的是1-3层级,科研用的是4-5,现在冒出了个6,有意思。

6 判断逻辑,作者正在做的事情就是把常识逻辑化,逻辑机械化,这样就可以教给AI了,说的好像是门机器语言。

7 为什么,能问为什么的人,时常是摸着石头过河,他们不但熟悉这个世界,他们还试图理解这个世界,你能说你懂这个世界,反正我不懂。

8 自由意志,人有自由意志吗,这么浅显的问题科学家都还没搞明白[流汗]作者的学生现在正试图,把因果关系逻辑化后教给AI,这样AI就可以拥有自由意志了,听起来就恐怖。

作者:奥斯卡韭菜花
链接:https://www.jianshu.com/p/394f46a61891
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

延伸1:因果关系

Pearl 把因果关系分成了三个等级。

第一级:观察,通过数据分析做出预测。

你的生活经验表明下雨会把衣服淋湿,所以下次下雨你最好打伞,这就是观察思维。观察是寻找变量之间的相关性,观察就是积累经验。

现在所有的AI技术都是基于这个第一级思维。AlphaGo下围棋,并不是它理解这步棋有什么用,它只不过知道走这步赢棋的概率会更大。

比如,你开了一个便利店,有卖牙膏和牙线。观察思维问的问题是,如果一个顾客买牙膏的时候,他有多大几率同时也买牙线呢?

概率论的表述是:P(牙线/牙膏),这个知识很重要,你可以判断要不要把牙线和牙膏放一起,它们应该按照什么比例进货。

所有动物都有观察思维的能力,这远远还不够。

I say:这个思维有让我嗅到了博物学思维的味道,我不反感这个思维,我认为这个思维很有用,特别是在一个新的研究领域,先观察,再试图总结。

第二级,干预,是预判一个行动的结果。

干预,就是说如果你现在把便利店的牙膏的价格提高一倍,对牙线的销量会有什么影响?

这不是以往的数据所能够告诉你的。是,以前可能发生过牙膏价格是现在的一倍的情况,但是你无法用以前那个经验预测现在这个行动的结果。因为以前牙膏的价格高,是因为别的原因,可能是当时牙膏紧缺。

I say,其实这段我不太认同,不管当时的原因是什么,如果牙膏的价格高了一倍我觉得就是有参考意义的。

现在如果你想知道结果,最好的办法就是做实验。互联网公司一直都在做各种”A/B测试“,看看哪个标题能够吸引更多的点击,什么颜色的网页能让用户停留时间更长。测试是主动的干预。

概率论的表述是:P(牙线/do 牙膏),do 的意思是做了一个主动干预。至于干预动作的结果到底会怎样,你需要更加高级的思维。

第三级,想象,是对以前发生的事的反思。

想象思维问的问题是,如果我当时是那么做的话,现在会是一个什么样的结果?

这是一个从来没有发生过的事情。这叫反事实分析。

如果纳粹德国抢先一步发明原子弹,现在的世界会是什么样的?这件事在历史上并没有发生,你积累的大数据好像用不上啊。

很多人爱说”历史不容假设“。

Pearl 认为这话错了,想象是智人的超能力。引用赫拉利在《人类简史》里面的说法,大约在7万年前,智人发生了一起”认知革命“,开始想象一些不存在的东西。

埃及的人面狮身像,这种东西自然界可没有,这是一种高级的认知。能反思,你就可以想办法改进,因为我们会反事实的想象,我们才会为自己的行动负责。

这三级思维,代表了三个问题—

  1. 这件事发生了,那件事是否也会跟着发生?
  2. 我采取这个行动,会有什么后果?
  3. 如果我当初没有这么做,现在会是怎样的?

回答第一个问题也许只需要数据分析就行,但是后面两个问题,你需要因果模型,你需要知道什么导致什么。


统计学有个重要的概念:回归平均。

故事还是从达尔文的表弟,弗朗西斯.高尔顿说起。

1877年,高尔顿在英国皇家学院演示了一个东西,”高尔顿板“,通过小球通过各个格挡的阻碍,最终随即落到下方的竖槽中。这当然就是正态分布,演示的是人类的遗传。

比如身高和智商,实验结果告诉我们,身高特别高和特别矮的人都很少。

当时这已经不算是新闻了,于是高尔顿在第一层阻隔下面又加了一层,这就模拟了两代人的身高,这次的结果是一个更加宽广的正态分布。

如果按照这个结果,意味着每一代人身高的标准差会越来越大,身高特别高的和特别矮的应该一代代越来越多啊。可是这与真实世界相悖了!

高尔顿把真实世界的现象叫做”回归平庸“,他不得不把第二层的一些竖槽变成斜槽,才能体现这个“回归”,可是这个斜槽代表了什么呢?难道说冥冥之中有一种力量让我们回归平庸?

1889年,也就是十二年后,高尔顿才把这个事情想明白。根本没有什么特殊力量。

如果说小明的个子高,而小明儿子的个子不如小明那么高,我们猜测有神秘力量,因为我们认为是小明的个子高导致小明儿子的个子也得高,对吗?但是你有没有想过,其实小明的爸爸也不会像小明那么高呢?显然儿子的身高是不能决定父亲的身高,这个关系不是因果关系!

高尔顿把这种关系叫做“相关”,他是第一个意识到“相关不是因果”的人。

丹尼尔.卡尼曼在《思考,快与慢》里,对回归平均有个很好的解释,

成功=天赋+运气

大成功=多一点点天赋+很多好运气

你得承认运气的作用。

还是以身高为例子,我们的身高80%直接继承了父母的基因,还有一部分是遗传基因的排列组合跟环境的相互作用影响到基因表达,这些过程中发生的一些运气。

I say,这其实就是生物演化过程中的随机性。

高个父亲不但有好基因,而且有好运气。基因可以遗传,但是运气是不行的。好运气已经非常罕见了,所以大概率下,儿子不会有那么好的运气了,所以儿子的身高就不如父亲。

从统计学的角度看就是,小概率事件不会一再发生。–这里面没有什么神秘力量。

世界上有些事,是无缘无故发生的。

I say,这段Pearl想表达什么?是不是说很多事情,完全不在因果关系讨论的范围之内?


科学的世界里到底有没有因果关系?

以物理定律为例,气压计读数B和大气压P之间呈正比关系:B=kP.

但是这个定律根本没说“谁导致了谁”,因为定律也可以写成P=B/k,所以物理定律只是描述一个规律,并不在乎因果。

所以高尔顿的徒弟卡尔.皮尔逊说,因果这个概念过时了,科学的世界里面你只能谈论相关性。

皮尔逊说,因果是相关性的一个特例,100%相关。就是A发生B一定发生。

但是,以你现在的知识你也肯定能指出这个是错误的。

举例,树木快速生长的时候,小草也在快速生长,他们两个的相关性=1,但是你能说他们之间是因果关系吗?不能,因为是春天到了,他们才都快速生长。

反例,一种药,对大部分人有效,但是对某些人无效,那你能说药跟治病之间没有因果关系吗?因果关系可以是一个概率。

Pearl倒是给了一个更好的定义,P(Y/do(X))>P(Y)。也就是说,如果你单方面对X做一个干预动作,导致Y的概率增加,那么就是X导致了Y。这个可能是目前为止最合理的定义。

但是不管你怎么定义,你还是永远说不清到底什么叫“X导致Y”。没油的车开不动,加上油车就开起来了,你说这是汽油导致了车能开–你能确定吗?也许上帝喜欢车里面有油,没油他就不让开,看见油有了就允许车开…也许这一切都是上帝的安排。

也许我们观察到的一切都是幻觉,毕竟“缸中之脑”实验目前还是无法证伪。哲学家的思考逻辑还真是无法反驳啊。

但是,万老师说我们仍然可以提出一个反对意见:因为这套逻辑没有用。

皮尔逊做了大量的研究,他发现了各种相关性。他发现有的相关性很有意义,有的相关性就没什么意义,他称之为“伪相关”。

举例,一个国家的人均消费巧克力的量和这个国家诺奖得主人数,有一个非常强烈的正相关。皮尔逊说这就是一个伪相关,你总不能说吃巧克力有利于得诺奖吧。让我们解释这个相关性的话,肯定是巧克力消费量高是因为这个国家的经济比较发达,而经济比较发达的国家容易处诺奖得主。

请注意!你只要这么一解释,就用上了因果关系。

这就尴尬了,首先是你皮尔逊说没有因果,然后你说有些相关性是伪相关,你的判断标准是有没有意义,你只要做出判断,你其实是在动用因果关系。

发现了吗?其实因果关系是一个你日用而不知的技能,我们如此倾向于因果关系,是因为它很有用。一个简单的因果模型,就能胜过无数经验。

I say,皮尔逊的问题在于,不要说“伪相关”,只说“相关”即可,甚至是说当作两个独立的事情来看呢。


因果模型

举例,法官判犯人死刑后的关系图。

第一个用因果关系搞研究的是,美国统计学家,休厄尔.赖特。1920年,他发表了一篇有关天竺鼠的毛色遗传的论文。赖特说,我这个因果模型不客观,他选择的几个变量完全是通过自己的知识、阅历和判断画出来的。也就是说,因果关系,是主观的。

所以,按照赖特的思路,我们解决问题的方式如下:

  1. 根据自己的知识,话一张主观的因果模型图,其中的关系可以是概率的。
  2. 使用实验和数据分析,来确定每一个因果关系的强弱大小,这样你就有了一个完整的因果模型。
  3. 使用这个模型。

Pearl一直在做的事情就是让AI掌握这样的模型。


你发现了没有,全书读到现在了,还是没有回答“什么是因果关系”,我们也没有真正解决“为什么”的问题!

万老师看来,因果分析这个思想的最高妙之处就在于,你无须确定真正的因果关系,你无须回答“为什么”。

真实世界里任何事情都是错综复杂的,你根本就无法列举影响一个结果的所有可能缘故。你必须做出各种取舍,你智能把你认为最重要的缘故画在图上。图画完了,你并没有科学地、彻底地、逻辑完备地回答“为什么”,你只是说,根据你的猜测,应该是因为这几个缘故。

而事实上也不需要回答“为什么”。我们在生活中的实际应用,对改变世界真正有用的,其实就是回答“观察、干预、想象”这三种问题。

所以因果分析的最终目的不是查明因果关系,而是回答三种问题,这三个问题比因果关系更基本,因果关系只是我们回答问题的手段。


贝叶斯方法

卓克老师说,知识这东西就得经常地核实和订正,如何科学地修正,就是贝叶斯方法。

贝叶斯方法有点像破案,福尔摩斯爱说自己用的是演绎法,其实不准确。破案是归纳法。演绎法是按照规则推导一件事的结果,归纳法是从结果追溯缘故。你是从一具尸体出发,推测是谁杀了他。

贝叶斯方法的本质,就是从结果推测缘故。

  1. 信仰是一种概率

1748年,苏格兰哲学家大卫.休谟写了一篇文章《论奇迹》。他说像死人复活这种明显违反自然常识的事,只有几个目击者说看见了,这个证据是不是有点太弱了?休谟说的就是耶稣复活啦,你懂的。

就如卡尔.萨根讲的“超乎寻常的论断需要超乎寻常的证据”。

那怎么量化证据和论断的联系呢?解决这个问题就需要:托马斯.贝叶斯。

P(A/B),这个叫条件概率。意思是“在B是真的条件下,A的概率是”。

举例,A表示下雨,B表示带伞。一般来说如果一个地方不常下雨,所以P(A)=0.1。但是你主义到爱看天气预报的老张几天上班带了伞,那你就可以判断,今天下雨的概率应该增加–在“老张带伞”这个条件下的下雨概率,就是P(A/B)。

一般来说,从缘故推结果是容易算的,但是逆概率–从结果推缘故就难了。

举例:你看见一个小孩向窗户扔球,你可以估计窗户被打碎的概率有多大,这就是正向概率;

但是如果你看见窗户碎了,想要推测窗户是怎么碎的,这就非常难了。

这里你就需要用到贝叶斯方法。

2. 贝叶斯公式

为了计算P(A/B),我们先思考一个问题:A和B都发生的概率多大?

P(A/B)=P(B/A)/P(B)*P(A)

举例,有一个40岁的女性去做乳腺癌检查,结果是阳性。那请问她真的得了乳腺癌得概率有多大?

我们用A表示她得了乳腺癌,B表示测试结果为阳性,因果关系是乳腺癌导致阳性。A-B。我们要计算P(A/B)。

P(A)就是相同年龄段的女性得乳腺癌得概率,统计结果是1/700。

P(B/A)是如果这个人真有乳腺癌,她得检测结果为阳性得可能性。这个就是这个仪器得测量准确度了,答案是73%。这个仪器不怎么准。

I say,貌似目前的诊断水平是个大问题,之前听过测量艾滋病得准确度好像也是5/6。

P(B)是随便找个人,给她检测出阳性得可能性。P(B)=1/700*73%+699/700*12%,12%是误诊率。P(B)=12.1%。

结果P(A/B)=1/116。也就是说这位女性哪怕被检测出阳性,真得乳腺癌得概率也只有不到1%。

当然这不是什么黑箱操作,一是因为女性得乳腺癌的概率本就低,二是仪器不准。如果这个女性本身携带了易得乳腺癌的基因,那么P(A)=1/20,计算的结果就会立刻上升到1/3。

于是,这引出了一个关键问题。一开始,你到底凭什么选择P(A)的数值呢?

那是你的主观判断。

3. 信念的传播

再看一眼贝叶斯公式,

P(假设/证据)=似然比*P(假设),你可以把它理解成“观念更新”的公式。

你的观点,随着事实,发生了变化。贝叶斯方法本质上是一个主观的判断方法:同样的证据,它允许你有不同的判断。

这也是贝叶斯方法被科学家攻击的点,因为人们总是觉得科学方法应该是完全客观的才对。而贝叶斯方法则是一种实用主义的的态度,先给理论假设设定一个可信度,新证据并不直接证实或者证伪理论,只是调整可信度的大小,做一个动态的判断。

1982年,Pearl把贝叶斯方法引入AI,发明了贝叶斯网络。也就是我们说的因果关系网络。工程师先网络上的每一个节点设置一个信念值,然后用大量计算、用贝叶斯方法去更新这些信念值,每一次新数据都能让网络上的信念值更新一遍,叫做“信念传播”。

不要说什么“坚定不移”,也不要听风就是雨。保持开放心态,让你的观点随事实发生改变,用一个量化的数值决定你的判断。虽然永远摆脱不了主观的成分,但是你会做出更科学的决策。


你怎么知道一个东西到底是不是真的有效呢?

我们以保健品,广告铺天盖地,但是东西不是真的有效?

  1. 最底层的判断力:贵
  2. 有个熟人吃了这个,有效,问题在于孤证不举。
  3. 对人群研究,大学给你出个大量人群跟踪报告。

以上是我们普通老百姓能使用到的手段,但是科学家会怎么做?

大规模统计研究。不过真实世界的复杂的多,我们要研究X对Y有效,往往还会有个因素Z,既影响了X也影响了Y。

举例,X代表每天锻炼身体,Y代表身体健康,Z是年龄。我们希望证明的是锻炼身体能让身体健康,但是你得考虑年龄因素啊。年轻人更爱锻炼身体,身体也更健康,那当你观察到爱锻炼身体的人更健康这个现象,你就不知道到底是X导致了Y,还是Z同时影响了X和Y。

统计学上管Z叫做“干扰因素”,你不考虑Z,就贸然说锻炼对身体有好处,那你就犯了“混杂偏误”。

当然解决Z的办法也是有的,选取同一年龄段的人就好了。这叫“控制变量”。

但是出了年龄外可能还有别的因素啊。比如时间,工作清闲的人有更多的时间锻炼,同时工作清闲的人身体状况也可能更好,所以你还得控制“工作清闲”这个变量。

这是第四层判断,

4. 控制各种可能因素,但是问题在于,你永远无法穷尽所有可能的干扰因素。

5.随即实验,创始人英国统计学家,罗纳德.费舍尔。

大规模随即分组的好处在于,因为没有使用任何主观分类标准,那就不管你有什么干扰因素,这个因素在两个组里面的强度应该是大致相同的。只要实验的样本量足够大,随即分成的两组之间就不会有本质的差别。

天才设想!不但如此,费舍尔还能用统计方法估算随即实验得出结果的不确定到底有多大。

但这仍然不是最先进的办法,因为有的事吧,它无法做实验。

比如,你想知道吸烟是否真的导致了癌症,你总不能把人分成两组,逼着其中一组人每天吸烟吧? 那如果你不做实验,你就是事后统计,比如看看烟民得肺癌的比例是不是比一般人高—然后你又得回到第4层去控制各种变量。

6. 因果革命,在数学上发明了一个do-算符。科学家因此得出了两条判断规则。

第一,后门路径得信息传递必须被隔断。所谓后面路径,就是从X到Y得一个连通路径,其中起始箭头指向X,后门路径中可能包含干扰因素,你需要控制其中一个变量,阻断信息传递。

第二,如果后门途径中碰撞结构,那就不要控制了,因为碰撞点已经阻挡了信息交流,控制反而带来干扰。

I say, 说实话,第6层我是没看懂….

Pearl say,如果你的因果关系图已经包含了所有重要的因素,而你的控制变量又做得足够好,那么只要X和Y之间还有协同的变化,你就有充分的权力说,你找到了一个临时性的X-Y的因果关系。这样的结论不能说比随即实验低一等,要知道随即实验也有不确定性。


非典型杀人案件

老王要杀老李,开了一枪没打中,结果老李在逃跑过程中被高空坠物砸死了。

请问,老王应该按杀人罪论处吗?

I say,感觉不应该。

Pearl认为,理性办法,用反事实分析来计算概率。

But-for判据

还是从大卫.休谟说起,1739年,休谟提出了一个关于因果关系的定义,他说所谓的因果关系只不过就是时间上先后发生的两件事,我们在感觉中觉得他们有联系而已,这可能是人脑中的一种错觉。

I say,我是同意错觉这个说法的,生物学基础很薄弱。

但是到了1748年,休谟改主意了,他说因果就是如果不是第一件事发生了,第二件事就不会发生。

结果这两个定义形成了后世的人对因果的两种态度,两个派别都把休谟奉为祖师爷。

按理说,第二个定义明显比第一个定义更有力。每天天亮前,总会有攻击打鸣,根据第一个定义,难道说公鸡打鸣导致了天亮?

I say,这里我先表态我喜欢第一个,如果不把天亮和打鸣归结成因果关系,只是时间上先后发生的两件事,感觉有联系。这是我认为的答案。反而是第二个定义的范围是要比第一个再在狭窄点的。

实际历史上,直到上世纪七十年代第一个定义一直是学术界的主流。而现在因为因果革命的关系,第二个定义成了主流。

第二定义就是反事实分析。要不是A发生,B就不会发生。But-for原则也是现在法律上判定A要不要为B负责的重要依据。

必要概率和充分概率

再来一个场景,小王再一家歌舞厅工作,小王违反安全条例,用家具挡住了歌舞厅的一个安全出口的门,结果歌舞厅发生大火,一个人因为安全们被挡住而没有跑出去,被烧死了。请问你怎么量化小王的责任?

Pearl认为,你得计算反事实概率。

要不是小王挡门,你还会被烧死吗?这就是一个But-for。小王挡门,是烧死人的必要条件。概率越大,小王责任越大。美国刑事犯罪认为必要概率应该在99%。

但是Pearl说,这还不够。你还得考虑充分概率。

比如,有人在房间点火把房子给烧了,显然点火是一个but-for,这个动作的必要概率很高。可是从另一方面看,房间里要是没有氧气的化,火会烧嘛?氧气也是but-for啊,你怎么判断氧气和点火哪个责任大呢?

I say,当然是点火,从经济学的角度来看,你要不点火所付出的努力是很少的,但是你要把一个房间的氧气抽空,那就麻烦多了。

Pearl引入充分概率,所谓充分概率就是这个动作是否足以导致这样的结果。氧气在别的屋子里面怎么没烧起来了,氧气的充分概率很低。

ok,还是回到老王朝老李开枪的案子上来。我们现在要问:“我们知道老王要是不开枪的话老李不会被钢琴砸死,那么请问老王开枪的情况下,老李有多大可能性被钢琴砸死?”

没人想到有个钢琴会掉下来,所以这个充分概率很低。因此,我们认为老王只应该按照“试图杀人”,而不应该按照杀人罪论处。

如果换一个场景,如果老王在高楼上追杀老李,老李坠楼身亡,那么老王的充分概率就会很高。

小王挡门的案子中,既然有个安全出口,就说明这里防火很重要,火灾可不是钢琴从天而降的小概率事件。小王的充分概率和必要概率都不低,所以小王要承担很大的责任。

简单的说,必要概率就是你不开枪他就不会死,充分概率是你要开枪他就一定死。只有两个概率都很高的时候,当事人才负有不可推卸的责任。

总结,从休谟的第二定义,到法庭的But-for判刑,再到Pearl的充分概率,这是一条清晰但是漫长的路。

那我们为什么要把这些常识给逻辑化呢?

逻辑化,就是用理性取代感性。

逻辑化才能标准化,标准化才能推广。

逻辑化才能机械化,机械化才能教给AI。

这是Pearl的野心。


小学老师常说,知其然知其所以然。也就是说你得知道“为什么”。

终于讲到为什么了…

前面讲了这么多,为什么光凭经验不行,为什么你要“理解”因果关系,为什么要回答为什么?

例子1,VC的故事

1500-1800年,航海时代,坏血病杀四了三百万船员。

1747年,苏格兰海军军医詹姆斯.林德发现吃柑橘能治疗坏血病。因果关系:柑橘–坏血病。

19世界20年代,因为价格原因,把西班牙柠檬换成了西印度柠檬,坏血病卷土重来。

1930年,匈牙利科学家圣捷尔吉.阿尔伯特分离VC。更新因果关系:柑橘–VC–坏血病。

统计学上把VC叫做中介。

例子2:直接效应和间接效应。

现在有一种药物X,可以治疗某种疾病Y,治病机制是M(比如是对人体血压的控制)。药物控制血压,血压控制疾病。但是治疗的效果不一定是来自血压的变化哟,我们知道药物都是有安慰剂效应的,可能病人看到药物就能缓解病情了,这个安慰剂效应就是中介M之外的效应。

我们把从X到Y不经过M的效应叫做“直接效应”,经过M就叫做“间接效应”。

举例,吸烟–焦油–肺癌。

那么有意思的问题来了,怎么能把直接效应和间接效应分开计算。Pearl职业生涯中最大的成就正是这个。

直接效应,假设M不动,看X对Y剩下的效应多少。去掉焦油,吸烟还会导致肺癌嘛?

间接效应,只让M变动而不让X变动。人都服用相同剂量的焦油,看下吸烟和不吸烟的人区别在哪?

I say,我怎么觉得说反了?


最后看来,因果关系是一种主观的观点,也许在最底层的原理上,因果是一种幻觉。

但是你不可否认这是一种有用的幻觉,我们尝试下把因果和自由意志联系一下。

王立铭老师早已经讲过了,根据现有的生物学基础,大概率自由意志也只是一个有用的幻觉。

万老师从物理学角度来看,人无非是一堆原子,而原子都受到物理定律的支配,人身上没有什么能超越物理定律的东西,人的一切行动,都符合物理定律的预期。

如果不考虑量子力学效应,那么在牛顿那个机械世界,物理定律已经事先决定了你的一切。

考虑到量子力学,机械宇宙的决定性就是没有了,这个宇宙里有一些天然的随机性。当然,现在没有任务证据表明大脑思维过程里有量子力学。即使有那决定也是完全随即的,物理定律无法预测,你也无法控制。

神经学家打开人的大脑,里面的一切行为都是电信号,你的决定无非是对各种输入信息的反应,是生物学上的机械化过程。人,只是一台机器。

不过现在很多人,包括Pearl认为实际上没有自由意志和感觉上有自由意志这两件事并不算矛盾。它们是在不同层面上的事。在脑神经科学的层面上没有,但是在“认知”这个层面上,我们可以说人确实有自由意志。

自由意志,是一种感觉特别真实的幻觉。

其实因果关系也是这样的。我们说吸烟–肺癌,但是我们知道烟草是没有自由意志的。在物理定律的作用下,烟草产生了焦油,焦油接触人的肺,肺产生病变….所有这一切都是自然现象,归根结底是人观察生活总结的规律。

从纯逻辑角度说,经验就只是经验。也许在未来的下一秒整个宇宙的物理定律就都变了,逻辑并不能完全否认这种可能性。我们说有因果关系,我们说发现了什么机制,其实都是对世界做了一个强烈的假设而已。

不谈因果只看数字,就是被动接受信息、不做任何假设。我们谈论因果关系,谈论一件事的“解释”,就是对世界做出了一些主观的假设,然后根据这些假设去做出预判。这是更积极主动的姿态。因果关系可以说是大脑的一种思维快捷方式。

自由意志到底有啥用?

Pearl的看法是,首先它利于交流。

有自由意志,才谈得上“动机”,而动机提供了对行为的解释。比如恋爱中的男生给女生送花,女生问你为什么送啊?男生说我喜欢你—女生一听就明白了。如果男生说,这是我的脑神经系统对你的信号的一系列综合反应的结果,女生…

我有自由意志,在众多的选项中我先选择了这个动机,然后才谈得上据此去做理性的说服。价值观总是在方法论之前,你总要先知道自己想要什么,再用理性研究怎么做。然后你还可以通过反事实分析,说我当时如果克制了那个愿望,也许现在会有更好的结果。

所以Pearl说,从交流的效率考虑,如果将来要搞一支机器人足球队,这些机器人最好有自由意志的幻觉,这样会让它们的表现更好。

另外,人在行事过程中如果能表现出自由意志,他就能够独立自主,他就能够控制自己,他就值得尊敬。

怎样才能让AI也有自由意志呢?

第一,它需要一个关于世界的因果模型。

比如你家有个机器人,晚上打扫卫生把你给吵醒了,你就跟它说:下次不要吵醒我!

这个机器人需要有一个因果模型才能理解你这句话的。它得知道吸尘会导致噪音,噪音会吵醒你睡觉,吵醒你就会让你不高兴。

它还得会干预分析和反事实分析,它得知道虽然你说了这句话,但是白天它还是能够打扫卫生的啊,它得知道如果你晚上不在家的时候,它也是可以打扫卫生得。

第二,它需要把自己也当作环境的一部分,考虑自己跟环境得因果互动。

一个有意思得论断是机器人永远都无法100%预测自己得行为。为什么呢?因为你要精确预测自己得行为,就得把自己的程序跑一遍—可是你本来就已经在跑自己得程序啊!你不可能打开一个子进程,这个子进程里又包括了全部得你–你不能自己嵌套自己!否则就是无限循环。

所以AI需要一个关于自己的因果关系模型。它对自己的行为特点、对自己的动机会产生什么结果有一个基本的蓝图,这样它才能把自己和环境综合考虑。

I say,又是没看懂的一段…人也不能100%预测自己的行为啊

第三,它还需要一个记忆系统。

这个简单,它得知道自己以前的那些动机都导致了什么样的结果。

延伸2:因果关系

如是因,如是果。世间的一切皆是回响。

以下银子:Trader@知乎

因果关系,是万物运行中必不可少的一环。如果了却因果,时间便不会存在,意识也不会存在,就沉寂了。

因与果本身循环,因会创造果,果又是因,因果瞬间产生,瞬间作用,并不是像很多人想的那样,这辈子杀一个人,下辈子那人来复仇,不是的。 就像一个优雅的女人,哪天放下了自己的气质,跟卖菜的吵架了,那么果就已经瞬间产生了,并不只是被人看了笑话,如何产生?佛教叫末那识,心理学称之为潜意识,久而久之,一个优雅的女人就变成了泼妇,习惯成自然,就像社会上的犯罪基本都是再犯的罪人做的,做一次小偷就很容易成为惯偷。 如果把惯偷被枪毙当成果,因就是第一次偷,中间第二次第三次偷,就成了自我不偷的意识与偷的欲望之间的斗争,那么人与人之间的意识力量和欲望力量都不同,因此中间的显现就不同,所消耗的盗窃物资和岁月就都不一样,那么对于大部分旁观者来讲,观察的点都是当下的点,可能是第五次盗窃被观察者看到,随后产生一个观察结论,那么这个结论无论如何正确,都是片面的。

观察者每一次看到的,直至被枪毙,都属于果,那么观察者看到的果,就是片面的表象,就极具欺骗性。所以大部分人看到的东西和总结的结论都是片面的,欺骗性的表象,真理永远掌握在少数人手里。

因是什么?因也是果,因果是更大的因果循环中的一个片段,天文变化生地球,地球变化生地理,地理生文明,文明又因小地理生了各地人文,在这些基础上,又有人出生时的生辰八字限定了这个人参与因果的各类外部环境,从而生出了一个人,所思所想都是熏陶出来的,人是没有自我的,因为任何的贪嗔痴都来自于其所经历的宇宙,所以佛教说人都是可怜的,正常的看法,人民都是草芥,生生死死,施之以仁。

因果之间就是繁杂的宇宙,这片宇宙会蚕食人的精气神,影响人的健康寿命,北方人爱吃面食是果,南方人爱吃米饭是果,两个果叠加起来,就有了米面哪个好吃的争吵。那到底是面好吃还是米好吃?到底是澡堂子洗澡好,还是私人会所洗澡好?所以老祖宗就约定下,客随主便的礼仪。假如碰到一个人,上来就说东北人粗鲁,假如一个江浙沪的人,上来就说西北贫穷,那么首先这个人是没有见识的,思想简单狭隘。所以老祖宗又说言多必失,一旦说多了,自我的信息就暴露了,就可以被有心人利用。

佛教的人如何处理因果之间,酒肉穿肠过,佛祖心中留,吃肉喝酒让自己不产生愉悦感,不生因果,道家的说法是不生分别破除后天习气,原理都是一样的。