【新智元导读】图灵奖得主、贝叶斯网络之父Judea Pearl日前在arXiv上传了他的最新论文,论述当前机器学习理论局限,并给出来自因果推理的7大启发。Pearl指出,当前的机器学习系统几乎完全以统计学或盲模型的方式运行,不能作为强AI的基础。他认为突破口在于“因果革命”,借鉴结构性因果推理模型,能对自动化推理做出独特贡献。
深度学习理论研究已经引发了越来越多的关注,但是,机器学习也存在理论上的局限性。
然而,对于这个问题的关注,似乎还没有掀起多大波澜。
近日,图灵奖得主、贝叶斯网络之父Judea Pearl在arXiv上传了他的最新论文,论述当前机器学习理论局限,并给出来自因果推理的7大启发。
或许,你还记得 NIPS 2017上Judea Pearl 落寞的身影——在他关于机器学习理论局限的报告会上,到场的人数稀少。
CMU教授Eric Xing的消息,Judea Pearl报告会场人迹稀少,图片来自周志华
报告的题目《机器学习的理论障碍》(Theoretical impediments to machine learning),正是Judea Pearl对机器学习,特别是深度学习背后理论的思考。
虽然无法亲到现场,但我们可以细细阅读Pearl这篇“因果革命”的论文。
Judea Pearl:落寞的身影与因果推理尚未激起的7大火花
Judea Pearl 曾获得2011年的图灵奖,奖励他在人工智能领域的基础性贡献,他提出概率和因果性推理演算法,彻底改变了人工智能最初基于规则和逻辑的方向。他主要的研究领域是概率图模型和因果推理,这是机器学习的基础问题。图灵奖通常颁给纯理论计算机学者,或者早期建立计算机架构或框架的学者。
身为 UCLA 计算机科学系的教授,Judea Pearl曾两次居于科学革命的中心:第一次是在 20 世纪 80 年代,他为人工智能引入了一套新的工具,叫贝叶斯网络。第二次革命,鉴于贝叶斯网络在计算上的优势,Pearl 意识到简单的图模型和概率论(正如贝叶斯网络中的那样)也能用于因果关系的推理。这一发现为人工智能的发展奠定了另一个基础,但意义远非如此,这一能验证因果关系的、条理性的数学方法,几乎已经被所有科学和社会科学领域采用。
Judea Pearl 还是美国国家工程院院士,AAAI 和 IEEE Fellow,是以他儿子姓名命名的 Daniel Pearl 基金会的主席(他的儿子Daniel Pearl曾是华尔街日报记者,2002年被巴基斯坦恐怖份子绑架并斩首,为这事美国还专门拍了一部电影 ” A Mighty Heart” 。)
机器学习理论障碍与因果革命七大火花。
摘要
目前的机器学习系统几乎完全以统计学或盲模型的方式运行,这对于其力量和性能造成了严格的理论上的限制。这样的系统不能引发干预和反思,因此不能作为强AI的基础。为了达到人类智力水平,会学习的机器需要现实模型的指导,类似于在因果推理任务中使用的模型。为了演示这些模型的重要作用,我将提出七个任务的总结,这些任务是当前机器学习系统无法实现的,并且是使用因果建模工具完成的。
科学背景
如今,如果我们审视驱动机器学习的系统,我们发现它几乎完全以统计学的方式运行。换句话说,学习机器通过来自环境的感官输入流参数来优化其性能。这是一个缓慢的过程,在很多方面类似于达尔文进化论的自然选择过程。
它解释了老鹰和蛇这样的物种如何在数百万年的时间里发展出高超的视觉系统。然而,它不能解释科技超级进化的过程,例如人类能够在几千年的时间里建立眼镜和望远镜。
人类所拥有而其他物种所缺乏的是一种心理表征,一种人类可以增加意志、想象、假设、规划和学习来操纵生存蓝图的能力,像哈拉里(N. Harari)和米森(S. Mithen)这样的人类学家普遍认同这一点。
在4万年前,我们智人祖先实现全球统治的决定性因素,是他们编排环境的心理表征的能力、质疑表征的态度、并通过想象的精神付诸行动,最后假设“如果不这样呢?”,或提出介入性探究:“如果我采取行动呢?”以及回顾性、解释性反思:“如果我采取了不同的行动呢?”、“如果我们禁止吸烟会怎样?” 如今,绝大多数机器学习都不具备解决这些问题的能力。
我认为解决这些问题的关键是给机器装备因果推理工具来加速学习,以达到人类认知水平。这个假设在20年前的反事实信息数学化阶段就已经被推测了,但今天不是这样。
图形和结构模型的进步使反事实计算上易于管理,从而使得模型驱动推理出一个更有前途的方向,利于建立强大的AI。在下一节中,我将使用三级层次来描述机器学习系统所面临的障碍,这个三级层次管理因果推理中的推理。最后一节总结了如何利用现代因果推断工具规避这些障碍。
因果关系的三大层次
图1:因果关系层级。i 级的问题只有在 i 级或以上级别的信息能够获取时才能被回答。
因果推理的逻辑所揭示的一个非常有用的见解是,就每个类别能够回答的问题类型而言,存在对因果信息的一个清晰的分类。
这个分类形成了一个三层的层次结构,这意味着只有当层次 j(j ≥ i)的信息可以获得时,层次 i(i = 1,2,3)上的问题才能被回答。
图1显示了有3级的层次结构,以及每个级别可以回答的典型问题。这些级别分别为:①联想(Association),②干预(Intervention),③反事实(Counterfactual)。选择这些名字是为了强调它们的用法。我们叫第一层联想,因为它调用了纯粹的统计关系,由裸数据定义。例如,购买牙膏的顾客也更容易购买牙线;这种关联可以使用条件期望直接从观测数据中推断出来。这一层的问题由于不需要因果信息,因此被放置在最底层。第二级干预比联想要高,因为它涉及的不仅仅是看到什么,还包括改变我们所看到的。这个级别的典型问题是:如果我们将价格加倍会发生什么?这样的问题不能单从销售数据来回答,因为它们涉及到客户行为的变化,这会影响新的定价。这些选择可能与以前的涨价情况有很大不同。(除非我们精确地复制价格达到目前价值两倍的市场条件。)最后,最顶层被称为反事实信息(Counterfactuals),这个术语可以追溯到哲学家大卫·休谟和约翰·斯图尔特·穆勒(John Stewart Mill),也是过去二十年来一直使用的,对计算机友好的语义。反事实类别中的一个典型问题是,“如果我采取了不同的行动会怎么办”,因此需要追溯推理。
反事实被放在层次结构的最顶层,是因为它们包含干预和联想的问题。如果我们有一个可以回答反事实问题的模型,我们也可以用它来回答关于干预和联想的问题。例如,如果把价格加倍会发生什么(干预型问题)可以通过提出一个反事实的问题来回答:价格是目前价值的两倍会发生什么?同样,当我们可以回答干预型问题,联想类问题也能得到回答。
相反,有了联想问题模型,并不能回答更上层的问题,比如我们不能对那些接受过药物治疗的受试者重新进行实验,看看他们没有吃药的话有会怎样的行为。因此,层次结构是有方向性的,顶层是最强大的层次。
反事实是科学思维的基石,法律和道德推理亦是。例如,在民事法庭,被告被认为是造成伤害的罪魁祸首。如果没有被告的行为,伤害很可能就不会发生。“如果没有”的计算意义要求比较现实世界和没有发生被告行为的另一个世界。
层次结构中的每一层都有一个句法签名,用来表征被录入的那层语句。例如,关联层的特征是条件概率句,例如P(y | x)= p,说明:假设我们观察到事件X = x,事件Y = y的概率等于p。在大型系统中,可以使用贝叶斯网络或任何支持深度学习系统的神经网络来高效计算这些证据句子。
在介入层,我们找到类型为P(y | do(x),z)的句子,它表示“事件Y = y的概率,假设我们介入并将X的值设为x,然后观察事件Z = ž。这样的表达式可以从随机试验或者使用因果贝叶斯网络(Pearl,2000,第3章)进行实验性的估计。一个孩子通过对环境的有趣操纵(通常在一个确定性的操场上)来学习干预的效果,人工智能规划人员通过行使他们指定的行为来获得干预知识。无论数据有多大,都不能从被动观察中推断干涉表达。
最后,在反事实层面上,我们有了类型P(yx | x',y')的表达式,它代表“如果我们观察到X是x,事件Y = y的概率就会被观察到,基于我们实际上观察到X是x’和Y是y'。例如,如果Joe读完大学,他的工资就会是y。而他“只上了两年大学”,实际工资就会是y’。”只有在我们拥有功能或结构方程模型时或具有这些模型的属性时,才能计算出来这样的句子。(Pearl,2000,第7章)。
这个层次结构及其所需的形式限制,解释了为什么基于统计学的机器学习系统无法推理行动,实验和解释。它也告诉我们需要哪些额外的统计信息,以何种格式来支持这些推理模式。
研究人员经常感到惊讶的是,这个层次结构降低了把深度学习的成就降到了联想的级别。与课本曲线拟合练习并列。一个反对这种比较的观点认为,在深度学习上我们尽量减少“过拟合”,而曲线拟合的目标是尽可能最大化“拟合”。不幸的是,分隔三层的理论障碍在层次结构中告诉我们,我们的目标函数的性质并不重要。只要我们的系统优化观测数据的某些属性,但没有提及数据之外的世界,我们又回到了层次结构的第一层面,这一层面有许多局限性。
因果推理模型的7大支柱:你能用因果推理模型做什么?
考虑以下 5 个问题:
给定的疗法在治疗某种疾病上有多有效?
是新的税收优惠导致了销量上升了吗?
每年的医疗费用上升是由于肥胖症人数增多导致的吗?
招聘记录可以证明雇主的性别歧视罪吗?
我应该放弃我的工作吗?
这些问题的一般特征是它们关心的都是原因和效应的关系,可以通过诸如导致、由于、证明和应该等词看出这类关系。这些词在日常语言中很常见,并且社会一直都需要这些问题的答案。然而,直到最近都没有足够好的科学方法对这些问题进行表达,更不用说回答这些问题了。和几何学、机械学、光学或概率论的规律不同,原因和效应的规律曾被认为不适合应用数学方法进行分析。
但是,过去30年来,事情已发生巨大变化。一种强大而透明的数学语言已被开发出来用于处理因果关系,还有配套的把因果分析转化为数学博弈的工具。这些工具让我们能够表达因果问题,然后用数据来估计答案。
我把这种转化称为“因果革命”(Pearl and Mackenzie, 2018, forthcoming),而导致因果革命的数理框架我将其称之为“结构性因果模型”(Structural Causal Models,SCM)。
SCM 由三部分构成:图模型、结构化方程、反事实和干预式逻辑
其中,图模型作为表征知识的语言,反事实逻辑帮助表达问题,结构化方程以清晰的语义将前两者关联起来。
接下来我将介绍 SCM 框架的 7 项最重要的特性,并讨论每项特性对自动化推理做出的独特贡献。
1. 编码因果假设——透明度和可测试性
一旦我们认真对待透明度(transparency)和可测试性(testability)的要求,用一种紧凑的、可用的形式来编码假设的任务并不是一件简单的事情。透明度使分析人员能够辨别所编码的假设是否合理(基于科学依据),或者是否有必要进行额外的假设。可测试性允许我们(无论是分析师还是机器)能够确定所编码的假设是否与可用数据兼容,如果不兼容,则识别那些需要修复的假设。
图模型(graphical models)的进步使紧凑编码变得可行。它们的透明度来源于这样一个事实:所有假设都是用图形编码的,这与研究人员对领域中因果关系的理解方式是一致的;不需要对反事实或统计依赖性的判断,因为这些可以从图的结构中读出。可测试性是通过一个称为d-separation的图形标准来促进的,它提供了原因和概率之间的基本联系。它告诉我们,对于模型中任何给定的路径模式,哪些依赖模式是数据中应该存在的(Pearl, 1988)。
2. Do-calculus和控制混杂
混杂(confounding),或者说出现两个或多个变量的未被观察到的因素,长期以来被认为是从数据中得出因果推断的主要障碍。通过一种称为“back-door”的图形标准可以“解混杂”(deconfound)。选择一组合适的变量来控制混杂的任务已经被简化成一个简单的“roadblocks”问题,可以用一个简单的算法解决(Pearl, 1993)。
对于那些“back-door”标准不成立的模型,有一个符号引擎叫做“do-calculus”,它能预测任何可行情况下策略干预的效果,当预测不能用特定的假设来确定时,会以失败退出(Pearl, 1995; Tian and Pearl, 2002; Shpitser and Pearl, 2008)。
3. 反事实的算法化
反事实分析处理的是特定个体的行为,根据一组不同的特征来确定。例如,假设Joe的薪资为Y = y,并且他上了X = x年大学,那么Joe的薪资是多少呢?那么假如Joe再上一年大学,他的薪资会是多少?
因果革命的一项成就是,在图形表示中将反事实推理形式化,图形表示是研究人员用来编码科学知识的一种表现形式。每个结构方程模型都决定了每个反事实语句的真值。因此,我们可以通过分析来判断句子的概率是否可以通过实验或观察研究来确定,或通过这两者的组合来估算[Balke and Pearl, 1994; Pearl, 2000, Chapter 7]。
在有关因果的论述中,人们特别感兴趣的是关于“效果的原因”(causes of effects)的反事实问题(和“原因的效果”相对)。例如,Joe去游泳是Joe死亡的必要(或充分)原因(Pearl, 2015a; Halpern and Pearl, 2005)。
4. 调解分析和直接、间接效应的评估
调解分析(mediation analysis)关注的是将变化从原因传递到效果的机制。对中间机制的检测是生成解释的基础,且必须应用反事实逻辑帮助进行检测。反事实的图形表示使我们能够定义直接和间接效应,并确定这些效应可以从数据或实验估计的条件(Robins and Greenland, 1992; Pearl, 2001; VanderWeele, 2015)。由这个分析可以回答的典型问题是:X对Y的影响有多少是由变量Z导致的。
5. 外部有效性和样本选择偏差
所有实验研究的有效性都受到实验和实现设置之间差异的影响。当环境条件发生变化时,我们没法期待在某个环境中训练的机器还能够表现良好,除非这些变化是局部的、可确定的。这个问题及其各种表现形式都已经被机器学习研究者认可,诸如“领域适应”、“迁移学习”、“终身学习”和“可解释的人工智能”等等,这些只是研究人员和资助机构研究的一些子任务,试图缓解稳健性(robustness)的普遍问题。
不幸的是,稳健性的问题需要环境的因果模型,并且不能在关联级别上进行处理,在这个级别上,大多数补救措施都已经尝试过了。关联(association)不足以确定所发生的变化所影响的机制。我们前面讨论的 do-calculus为克服环境变化带来的偏见提供了一种完整的方法,它既可用于重新调整学习政策以规避环境变化,也可用于控制非典型样本的偏差(Bareinboim and Pearl, 2016)。
6. 数据丢失
数据丢失的问题困扰着实验科学的每一分支。例如,受访者没有回答全问卷所有项目,传感器因环境条件变化而失灵,患者经常因为未知的原因退出临床研究。对于这个问题,大量的文献致力于统计分析的盲模型范式(model-blind paradigm),因此,这些研究严重局限于数据丢失随机发生的情况,也就是说,与模型中其他变量的值无关。使用丢失过程(missingness process)的因果模型,我们现在可以把因果关系和概率关系从不完整的数据中恢复出来,并且只要条件满足,就可以得到对所需关系的一致估计(Mohan and Pearl, 2017)。
7. 因果发现
前面描述的d-separation标准使我们能够检测和列举给定的因果模型的可测试推断。这为利用不精确的假设和数据兼容的模型集合进行推理提供了可能,并且可以紧凑地表示这个集合。系统的搜索已经被开发出来,在某些情况下,可以将一组兼容模型的集合修剪到可以直接从该集合中评估因果问题的程度(Spirtes et al., 2000; Pearl, 2000; Peters et al., 2017)。
结论
哲学家Stephen Toulmin认为,基于模型与盲模型的二分法是理解巴比伦与古希腊科学之间竞争的关键。根据Toulmin的说法,巴比伦天文学家是黑箱预测的高手,在准确性和一致性方面远远超过了古希腊人(Toulmin,1961,pp.27-30)。然而科学却青睐希腊天文学家的创造性思辨战略,这种战略和形而上学的形象一样很狂野:充满火焰的圆形管,可以看见天火的小洞,还有骑在龟背上的半球形地球。然而,这种狂野的建模策略,颠覆了Eratosthenes(公元前276 - 194年)在古代世界最有创造性的实验之一,并测量了地球的半径。这绝对不会发生在巴比伦。
回到强人工智能,我们已经看到,对可执行的认知任务来说,盲模型的方法有内在限制。我们描述了其中的一些任务,并展示了如何在SCM框架中完成这些任务,以及对于执行这些任务,为什么基于模型的方法是必不可少的。我们的总体结论是,人类的AI不能单纯地从盲模型的学习机器中出现,它需要数据和模型的共生协作。
数据科学只不过是一门科学而已,因为它有助于解释数据:这是一种二体问题,将数据与现实联系起来。不管数据有多大,如何被灵巧应用,数据本身并不是一门科学。
论文地址:https://arxiv.org/pdf/1801.04016.pdf