数据分析在因果领域有最新的研究吗?

历经三年时间,我们在2022年完成了图灵奖获得者、加州大学洛杉矶分校计算机科学教授,美国国家科学院院士,被誉为“贝叶斯网络之父”的朱迪亚·珀尔大作《因果论:模型、推理和推断》。

这本书原版的第1版写于2000年,开创了因果分析和推断的新思想和新方法,一出版就得到广泛的好评,促进了数据科学、人工智能、机器学习、因果分析等领域新的革命,在学术界产生了很大的影响。

后来又于2009年修订出了第2版,内容上结合当时因果研究的新发展,做了较大的改动。目前我们翻译的这本书英文原版是在2009年出版的,到目前已经有十多年了。

该书中文版的出版有利于广大中国学者、学生和各领域的实践人员了解和掌握因果模型、推理和推断相关的内容。特别是在当前统计学和机器学习流行的时代,如何实现从“数据拟合”到“数据理解”的转变?如何在下一个十年里,从“所有知识都来自数据本身”这一目前占据主流的假设到一个全新的机器学习范式?是否会引发“第二次人工智能革命”?

正如图灵奖授予珀尔时评价他的工作为“人工智能领域的基础性贡献,他提出概率和因果性推理演算法,彻底改变了人工智能最初基于规则和逻辑的方向。” 我们期待这种范式能够为机器学习带来新的技术方向和前进动力,并且最终能够在实际应用中发挥作用。

正如珀尔所说“数据拟合目前牢牢地统治着当前的统计学和机器学习领域,是当今大多数机器学习研究者的主要研究范式,尤其是那些从事连接主义、深度学习和神经网络技术的研究者。” 这种以“数据拟合”为核心的范式在计算机视觉、语音识别和自动驾驶等应用领域取得了令人瞩目的成功。但是,许多数据科学领域的研究人员也已经意识到,从当前实践效果来看,机器学习无法产生智能决策所需的那种理解能力。这些问题包括:稳健性、可迁移性、可解释性等。下面我们来看看例子。

近年来自媒体上的很多人都会觉得自己是统计学家。因为“数据拟合”“所有知识都来自数据本身”为许多重大决策提供了数据统计依据。但是,在进行分析时,我们需要谨慎分析。毕竟,事情可能并不总是乍看之下!一个与我们生活息息相关的案例。10年前,某城市市中心的房价是8000元/平米,共销售了1000万平;高新区是4000元/平米,共销售了100万平;整体来看,该市的平均房价为7636元/平米。现在,市中心10000元/平米,但由于市中心的土地供应少了,只销售了200万平;高新区是6000元/平米,但由于新开发的土地变多了,销售了2000万平;整体来看,现在该市的平均房价为6363元/平米。因此,分区来看房价分别都涨了,但从整体上看,会有产生疑惑:为什么现在的房价反而跌了呢?

图1 房价趋势按照不同区域划分后与总体结论相悖

我们知道这种现象叫作辛普森悖论。这些案例清楚地表明当我们没有给予足够的观察变量时,我们是如何从统计数据中得到了完全错误的模型和结论。就这次新冠大流行而言,我们通常会获得全国范围的统计数据。如果我们按地区或市县进行分组,我们可能会得出截然不同的结论。在全国范围内,我们可以观察到新冠病例数量在下降,尽管某些地区的病例数量会有所增加(这可能预示着下一波浪潮的开始)。如果存在差异很大的群体,例如人口差异很大的地区,则也可能会发生这种情况。在国家数据中,人口密度较低地区的病例激增可能与人口稠密地区的病例下降相形见绌。

类似的基于“数据拟合”的统计问题比比皆是。比如下面两个有趣的例子。

如果我们每年收集尼古拉斯·凯奇每年出演的电影数量和美国溺死人数的数据,我们会发现这两个变量高度相关,数据拟合程度奇高。

图2 尼古拉斯·凯奇每年出演的电影数与美国溺死的人数

如果我们收集每个国家人均牛奶销售量和获得诺贝尔奖人数的数据,我们会发现这两个变量高度相关。

图3 人均牛奶消费量与诺贝尔奖人数

从我们人类的常识认知来说,这些都是伪相关,甚至是悖论。但从数学和概率论的角度来看,表现出伪相关或者悖论的案例无论从数据上还是计算上都是没有问题的。如果有一些因果基础的人都知道,发生这种情况是因为数据中隐藏着所谓的潜伏变量,即未被观察到的混杂因子。

图4 独立变量导致了两个变量之间伪相关

珀尔在《因果论》中给出了解决的范式,详细分析和推导了以上问题,强调了因果与统计之间有着本质的区别,虽然因果分析与推断仍然是建立在统计学的语境上。珀尔提出了干预操作(算子)的基本计算模式,包括后门原则和具体的计算公式,这是当前对于因果关系最为数学化的描述。“因果以及相关的概念(例如随机化、混杂、干预等)不是统计概念”,这是贯穿珀尔因果分析思想的一条基本原理,珀尔称之为第一原理[2]。

那么,目前基于数据驱动的机器学习方法,特别是那些严重依赖于统计学方法的算法,学习到的模型极大可能也会出现半真半假、误导性或者反转性的结果。这是因为这些模型往往是基于观察数据的分布情况进行学习,而非数据生成的机制。

机器学习亟需解决的三个问题

稳健性:随着深度学习方法的流行,计算机视觉、自然语言处理和语音识别等研究大量利用了最先进的深层神经网络结构。但仍然长期存在这样一个事实问题,即在现实世界中,我们采集到数据的分布通常很少是完整的,与实际世界中的分布可能不一致。在计算机视觉应用中,训练集与测试集数据分布可能受到来自诸如像素差、压缩质量,或来自于摄像机位移、旋转或角度等的影响。这些变量其实就是因果概念中的“干预”问题。由此,人们提出了简单的算法来模拟干预,以专门测试分类和识别模型的泛化能力,如空间偏移、模糊、亮度或对比度的变化、背景控制和旋转,以及在多种环境中采集的图像等。到目前为止,尽管我们利用数据增强、预训练、自监督学习等方法在稳健性上取得了一定的进展,但对于如何解决这些问题还没有明确的共识。有人认为这些修正可能是不够的,在独立同分布假设之外进行泛化不仅需要学习变量之间的统计关联,还需要学习潜在的因果模型,以明确数据生成的机制,并允许通过干预概念模拟分布变化。 

可迁移性:婴儿对物体的理解基于跟踪随时间变化表现一致的物体,这样的方法可以让婴儿快速学习新的任务,因为他们对物体的知识和直观理解可以重复使用。类似地,能够高效地解决现实世界中的任务需要在新的场景中重用学习到的知识技能。研究已经证明,学习了环境知识的机器学习系统效率更高,通用性更好。如果我们将现实世界模型化,许多模块在不同的任务和环境中表现出相似的行为。因此,面对新环境或新任务,人类或者机器可能只需要调整其内部表示中的几个模块。当学习因果模型时,由于大多数知识(即模块)可以在无须进一步训练的情况下重复使用,从而只需要较少的样本以适应新环境或新任务。

可解释性:可解释性是一个微妙的概念,不能仅仅使用布尔逻辑或统计概率的语言完全描述,它需要额外的干预概念,甚至是反事实的概念。因果关系中的可操纵性定义关注的是这样一个事实,即条件概率(“看到人们打开雨伞表明正在下雨”)无法可靠地预测主动干预的结果(“收起雨伞并不能阻止下雨”)。因果关系被视为推理链的组成部分,它可以为与观察到的分布相去甚远的情况提供预测,甚至可以为纯粹假设的场景提供结论。从这个意义上说,发现因果关系意味着获得可靠的知识,这些知识不受观察到的数据分布和训练任务的限制,从而为可解释的学习提供明确的说明。

因果学习建模的三个层次

具体地说,基于统计模型的机器学习模型只能对相关关系进行建模,而相关关系往往会随着数据分布的变化而变化;而因果模型基于因果关系建模,则抓住了数据生成的本质,反映了数据生成机制的关系,这样的关系更加稳健,具有分布外泛化的能力。比如,在决策理论中,因果关系和统计之间的区别更加清楚。决策理论中有两类问题,一类是已知当前环境,拟采取干预,预测结果。另一类是已知当前环境和结果,反推原因。前者称为求果问题,后者称为溯因问题[3]。

在独立同分布条件下的预测能力

统计模型只是对观察到的现实世界的粗浅描述,因为它们只关注相关关系。对于样本和标签,我们可以通过估计来回答这样的问题:“这张特定的照片中有一只狗的概率是多少?”“已知一些症状,心力衰竭的概率是多少?”。这样的问题是可以通过观察足够多的由所生成的独立同分布数据来回答的。尽管机器学习算法可以把这些事做得很好,但是准确的预测结果对于我们的决策是不够,而因果学习为其提供了一种有益的补充。就前面的例子来说,尼古拉斯·凯奇出演电影的频率和美国溺亡率正相关,我们的确可以训练一个统计学习模型通过尼古拉斯·凯奇出演电影的频率来预测美国溺亡率,但显然这两者并没有什么直接的因果关系。统计模型只有在独立同分布的情况下才是准确的,如果我们做任何的干预来改变数据分布,就会导致统计学习模型出错。

在分布偏移/干预下的预测能力

我们进一步讨论干预问题,它更具挑战性,因为干预(操作)会使我们跳出统计学习中独立同分布的假设。继续用尼古拉斯·凯奇的例子,“今年增加邀请尼古拉斯·凯奇出演电影的数量会增加美国的溺亡率吗?”就是一个干预问题。显然,人为的干预会使得数据分布发生变化,统计学习赖以生存的条件就会被打破,所以它会失效。另一方面,如果我们可以在存在干预的情况下学习一个预测模型,那么这有可能让我们得到一个在现实环境中对分布变化更加稳健的模型。实际上,这里所谓的干预并不是什么新鲜事,很多事情本身就是随时间变化的,例如人的兴趣偏好,或者模型的训练集与测试集本身在分布上就存在不匹配的现象。我们前面已经提到,神经网络的稳健性已经获得了越来越多的关注,成为一个与因果推断紧密连接的研究话题。在分布偏移的情况下预测不能只局限于在测试集上取得高准确率,如果我们希望在实际应用中使用机器学习算法,那么我们必须相信在环境条件改变的情况下,模型的预测结果也是准确的。实际应用中的分布偏移类别可能多种多样,一个模型仅仅在某些测试集上取得好效果,不能代表我们可以在任何情况下都能够信任这个模型,这些测试集可能只是恰好符合这些测试集样本的分布。为了让我们可以在尽可能多的情况下信任预测模型,就必须采用具有回答干预问题能力的模型,至少仅仅使用统计学习模型是不行的。

反事实问题涉及推理事情为什么会发生,想象实施不同行为所带来的后果,并由此可以决定采取何种行为来达到期望的结果。回答反事实问题比干预更加困难,但也是对于AI非常关键的挑战。如果一个干预问题是“如果我们现在让一个病人有规律地进行锻炼,那么他心力衰竭的概率会如何变化?”,对应的反事实问题就是“如果这个已经发生心力衰竭的病人一年前就开始锻炼,那他还会得心力衰竭吗?”显然回答这样的反事实问题对于强化学习是很重要的,它们可以通过反思自己的决策,制定反事实假说,再通过实践验证,就像我们的科学研究一样。

最后,我们来看看如何在各个领域上应用因果学习。2021年诺贝尔经济学奖授予了约书亚·安格里斯特(Joshua D.Angrist)和吉多·因本斯(Guido W.Imbens),表彰“他们对因果关系分析的方法论”贡献。他们研究了因果推断在实证劳动经济学中的应用。诺贝尔经济学奖评选委员认为“自然实验(随机试验或者对照试验)有助于回答重要问题”,但如何“使用观测数据回答因果关系”更具有挑战性。经济学中的重要问题是因果关系问题。如移民如何影响当地人的劳动力市场前景?读研究生能够影响收入增加吗?最低工资对技术工人的就业前景有何影响?这些问题很难回答,因为我们缺乏正确的反事实解释方法。

自从20世纪70年代以来,统计学家就发明了一套计算“反事实”的框架,以揭示两个变量之间的因果效应。经济学家又在此基础上进一步发展了断点回归、双重差分、倾向得分等方法,并且大量地应用在各种经济政策问题的因果性研究上。从6世纪的宗教文本到2021年的因果机器学习,包括因果自然语言处理,我们可以使用机器学习、统计学和计量经济学来模拟因果效应。经济和其他社会科学的分析主要围绕因果效应的估计,即一个特征变量对于结果变量的干预效应。实际上,在大多数情况下,我们感兴趣的事情是所谓的干预效应。干预效应是指干预或者治疗对结果变量的因果影响。比如在经济学中,分析最多的干预效应之一是对企业进行补贴对企业收入的因果影响。为此,鲁宾(Rubin)提出了潜在结果框架(potential

尽管经济学家和其他社会科学家对因果效应的精确估计能力强于预测能力,但他们对机器学习方法的预测优势也十分感兴趣。例如,精确的样本预测能力或处理大量特征的能力。但正如我们所见到的,经典机器学习模型并非旨在估计因果效应,使用机器学习中现成的预测方法会导致对因果效应的估计存在偏差。那么,我们必须改进现有的机器学习技术,以利用机器学习的优势来持续有效地估计因果效应,这就促使了因果机器学习的诞生!

目前,根据要估计的因果效应类型,因果机器学习可以大致分为两个研究方向。一个重要的方向是改进机器学习方法以用于无偏且一致的平均干预效应估计。该研究领域的模型试图回答以下问题:客户对营销活动的平均反应是什么?价格变化对销售额的平均影响是多少?此外,因果机器学习研究的另一条发展路线是侧重于改进机器学习方法以揭示干预效应的特异性,即识别具有大于或小于平均干预效应的个体亚群。这类模型旨在回答以下问题:哪些客户对营销活动的反应最大?价格变化对销售额的影响如何随着顾客年龄的变化而变化?

除了这些活生生的例子,我们还可以感觉到因果机器学习引起数据科学家兴趣的一个更深刻的原因是模型的泛化能力。具备描述数据之间因果关系的机器学习模型可泛化到新的环境中,但这仍然是目前机器学习的最大挑战之一。

珀尔更深层次地分析这些问题,认为如果机器不会因果推理,我们将永远无法获得达到真正人类水平的人工智能,因为因果关系是我们人类处理和理解周围复杂世界的关键机制。珀尔在《因果论》中文版的序中写到“在下一个十年里,这个框架将与现有的机器学习系统相结合,从而可能引发‘第二次因果革命’。我希望这本书也能使中国读者积极参与到这一场即将到来的革命之中。”

[1] 珀尔. 因果论:模型、推理和推断(原书第2版)[M]. 刘礼,等译. 北京:机械工业出版社,2022.

[2] 刘礼,吴飞,李廉. 因果关系学习的思维取向和概念分析[J]. 中国大学教学,2021(10):35-42.

}

与相关关系相比,因果关系是对问题更本质的认识。诸如物理学、行为学、社会学和生物学中许多研究的中心问题是对因果的阐述,即对变量或事件之间直接作用关系的阐述。例如,一种新型药物在给定患者人群中疗效如何?一个新的法规可避免多大比例的犯罪?在一个特定事故中,个体死亡的原因是什么?这些都是因果问题,因为要回答这些问题都需要有数据生成过程的知识。这些问题的答案不能单独通过计算数据获得也不能单独从控制观测数据的分布中获得。分析因果关系的黄金法则是实施随机对照实验。多数情况下实施实验的代价很高或者由于客观条件、伦理道德等因素的限制使得随机对照实验根本不可行。

然而随着互联网和数据科学的发展,收集非实验的观测数据却要容易的多。所以到目前为止发展了一些从数据中自动挖掘这种因果的方法。目前,至少有三类挖掘本质因果的方法,它们在使用的数据类型和自动化程度上都存在差异。第一类方法是随机对照实验方法。它要求分析者要对实验数据的产生过程有很深入的了解以及很高的控制能力。第二类方法是准实验设计方法,它是一种在社会学研究中被大量使用的方法。这种方法是在观测数据中试图寻找能像随机实验方法一样满足因果推断条件的情形来进行观测数据上的因果推断(Shadish et al., 2002; Campbell and Stanley, 2015; Thyer, 2012)。第三类方法是联合模型方法,大致上又分为图模型方法和虚拟事实模型方法。这种方法在一些假设的前提下自动对联合概率分布进行估计来从非实验数据或者观测数据中推断因果。

这三种方法面临一些共同的挑战。首先,这些方法都需要识别一对变量之间是否存在统计相关性。推断统计相关性的原则和方法,即统计假设检验,已经提出了几十年。不管对于人工的还是自动的算法来说解决这个问题的困难都不大,但却也仍旧存在一些挑战。比如,它的对立面问题:统计独立性检验和完全的条件独立性检验就仍旧是一个非常活跃的研究领域(Sriperumbudur et al., 2010; Szekely 2012)。其次,这些方法必须要识别潜在因果的方向,即哪个为因哪个为果。对于这个问题往往通过考虑时序的方法来解决,即先发生的为因后发生的为果。但是在联合模型方法中也常常用一些其它的方法,下文详述。最后,这些方法都必须要避免其它的混淆因素的影响,即其它潜在的共同原因对变量之间因果关系的干扰。本文将详细论述不同类型的方法对于解决这些问题的尝试。

当今对于挖掘有效的因果知识来说,可能最普遍的方法就是随机对照实验。在过去的50多年中,生物学、物理学和社会科学等的快速发展扩张很大一部分有赖于如何设计实验并分析结果的知识。对于实验设计方法的发现整理并传播代表了过去一个世纪以来的人类智力成果。随机对照实验这种方法包含了两个非常关键的概念,即控制和随机化。控制通常涉及研究人员有目的的设置一些变量的替代值的能力,然后比较这些替代设计的效果。控制是“实验”这个概念的核心,并且有相当长的历史。最早可以追溯到John Stuart Mill(1843)或许还可以追溯到更早一个世纪的时间(Boring, 1954)。通过在实验中控制变量的方法,研究人员既可以通过保持变量不变来屏蔽掉变量的效果,又可以通过系统的改变变量值来得到变量改变的效果。但是,要做到这样研究人员就必须知道特定变量的存在情况并且能够改变和控制它们的值。

图1: 药效评价的随机对照实验

随机化涉及实验组随机分配对象的方法(例如随机分配医学实验中的病人),这样研究人员就无法控制实验对象的特征也不能系统的影响被研究的变量。如果实施了随机化,这些不被控制的特征的影响就会被均匀的分摊到足够大的组内。19世纪20年代R.A.Fisher就概括了随机化的原则和它在实验设计中的应用(Fisher, 1925),自此随机化也成为了实验设计的重要内容。随机化的特别之处在于它能移除那些对研究者们来说透明变量的影响。例如图1所示,只要把病人随机地分配到实验组中研究者就不需要知道哪个具体的遗传因素可能会影响病人对某种特定药物的反应。研究实验环境现象的学者一般都会控制他们能够系统改变的变量或者能保持不变的变量并且对其它的大多数甚至全部变量进行随机化。通过这两种方法,就能够研究能被直接操控的变量的效果并且屏蔽掉几乎全部的其它潜在原因。

近几年,使用这种随机对照实验的方法,有大量的学者在社会媒体上做了大量有意义的研究和探索。Centola等人邀请1540名志愿者并随机地将他们一对一的分配到小世界特征的随机网络和高聚类的规则网络中的,并观察研究两种不同网络下行为的传播规律来确定社会网络结构对与行为蔓延的因果作用(Centola, 2010)。基于相同的原理,Centola又基于性别、年龄及身体质量指数等特征,随机化地把在线社会网络中的用户分成两组,并让一组人员相互之间能发挥同质性作用,另一组完全没法发挥同质性作用,然后通过分析用户的健康饮食日志在网络中传播的情况分析人口组成的同质性对健康行为传播和革新采纳的因果作用(Centola, 2011)。Lewis等人也通过这种随机对照实验的方法研究在线社会网络上导致同质性的原因到底是社会选择还是社会影响(Lewis et al., 2012)。Aral等人把Facebook上的140万朋友关系作为研究对象,使用随机对照实验的方法研究这些朋友关系所实施的同伴影响对同伴在某些产品使用上的因果作用(Aral and Walker, 2011),并且于2013年使用随机对照实验的方法研究社会媒体上的已有的用户投票结果对于后来者给出好评或坏评的因果作用(Muchnik et al., 2013)。

准实验设计是社会科学领域中经常使用的因果推断方法,一般简称为QEDs(Thyer, 2012)。这种方法试图利用能部分模拟对照实验环境的观测数据集来做因果识别[29, 30]。虽然QEDs无法总能具有像随机对照实验那样的内部合理性,但是QEDs却增加了可分析数据的广度,尤其是对那些无法进行随机对照实验的情形问题中的因果推断,因此弥补了随机对照实验的某些不足, 它们之间的关系如图2所示。

图2: 准实验设计与随机对照实验的关系

在没有明确的控制和随机化的情形下,有些QEDs使用匹配的方法来确定对比数据实例对,以保证除了研究目标变量外的其它变量尽可能的相似,即非等值组设计。还有一些其它的QEDs研究相同数据实例上给定变量在特定事件前后随时间的变化,即断点回归方法。还有一些其它类型的QEDs,包括proxy pretest design(Cook et al., 1979)、double pretest

准实验设计有一定的优越性。首先,它在因果推断内部合理性方面超越统计控制方法,因为它可以控制全部变量,即使这些变量没有被识别、度量和建模。其次,它在外部合理性上超越随机对照实验。因为准实验设计使用的是真实系统中的数据而不是人造实验环境下产生的数据。随机控制实验在因果推断上的有效性需要很高的代价,因此随机对照实验有很高的内部有效性,但是需要牺牲外部有效性(即泛化到真实世界)。相反,准实验的方法具有很高的外部有效性。第三,QEDs不需要额外地收集数据反而可以把它们用于现有的数据集并推断出很强的因果结论。最后,QEDs不排斥其它的因果推断方法,它可以很好的辅助统计控制方法和随机实验方法。当然QEDs也有一些局限性,比如:人工的QEDs只能用于有限的因果推断情形,例如双胞胎研究;由于QEDs只使用数据的子集来推断因果依赖,因此对与数据子集的代表性就要求很高。

准实验设计方法上非常著名的例子是双胞胎比较研究。这个研究已经延续了数十年了,其目的是探索某些疾病和情况的原因。比较同卵双胞胎集合和异卵双胞胎集合在某种疾病上的发病率。同卵双胞胎有相同的基因、共同的胎儿期环境和几乎相同的成长环境。异卵双胞胎也有相同的胎儿期环境和几乎相同的成长环境,但他们基因却不是完全相同而只是相似。这种典型的相似背景以及这两种类型的双胞胎在相似背景下又有特定的不同,为研究遗传因素在疾病上的作用提供了接近理想的环境。例如,为了识别某些已知的情况是由于遗传因素导致的,研究人员就可以在每种类型的成对双胞胎上确定相关性并且比较两种类型的相关性。如果差异大说明这个特定情况很大部分是由于遗传因素,反之如果没什么不同则说明这种情况是由于其他因素。

但是在传统的QEDs中所有的步骤都是人工分析。这种方式耗时耗力,每次QEDs都要重复一遍所有的步骤。为了解决人工QEDs效率低下的缺陷,Jensen等人提出了关系型数据上自动识别QEDs的方法AIQ(自动准实验识别)(Jensen et al., 2008; Jensen, 2007)。Oktay等人使用这种自动的QEDs识别框架分析社会媒体上的因果分析否定了人们对于问答社区中的认识“高质量答案的出现会导致用户继续贡献答案的积极性下降”(Oktay et al., 2010)。

对于因果推断的图模型方法研究是因果推断领域最活跃的研究方向之一。图模型的优越性在于直观,并且很容易的就可以把因果推断和概率独立性理论联系起来。除了少部分的学者研究线性有环模型上的因果推断(Hyttinen et al., 2012; Scheines et al., 2010; Hyttinen et al., 2010),大部分图模型上的因果推断研究都是基于DAG(有向无环图)的。对于DAG,一般有两种观点认识它:一种是将DAG看成是表示条件独立性的模型;另一种观点则是将其看成是表示数据生成机制的模型。而因果推断中常常使用的DAG是将其看成数据生成机制的模型,一般称其为贝叶斯网络或贝氏网络。贝叶斯网络中的节点代表随机变量,节点间的边代表变量之间的直接依赖关系(也可以看成因果关系),每个节点都附有一个概率分布,根节点$X$所附的是它的边缘概率分布P(X),而非根节点X所附的的是条件概率分布P(X|π(X))。

贝叶斯网络可以从定性和定量两个层面来理解。在定性层面,它用一个DAG描述了变量之间的依赖和独立关系。在定量层面,它用条件概率分布刻画了变量对其父节点的依赖关系。在语义上,贝叶斯网络是联合概率分布的分解的一种表示。它表征多个随机变量的联合生成的概率分布(张连文 and 郭海鹏, 2006)。更具体地,假设网络中的变量为X1,...,Xi,那么把各个变量所附有的概率分布想成就得到联合概率分布,即

其中,π(Xi)表示变量Xi在贝叶斯网络中的直接父节点。

贝叶斯网络的构造方式有两种,一种是专家手工构建,另一种是通过数据分析来获得。前者存在很大的缺陷,首先,人工构建贝叶斯网络需要对这个贝叶斯网络所代表的问题本身有深刻的理解;其次,人工构建往往会遗漏掉一些变量。既然贝叶斯网络是描述数据生成机制的模型,那就假设所有存在因果关系的观测数据都是基于一个贝叶斯网络的。那么如何从观测数据中学习出这个贝叶斯网络就成了一个非常重要的课题,即如何通过分析观测数据获得贝叶斯网络的结构和参数,其中参数一般指贝叶斯网络中非根节点的条件概率表。然而贝叶斯网络中的因果结构学习比贝叶斯网络结构学习要求更严格,因为表征因果结构的贝叶斯网络中每一条边都表征的是因果关系。大多数因果结构学习算法都有一个强假设:对所有变量A、B间的因果推断,可以观测所有潜在直接或间接的共同原因,既不存在图10所描述的情况。如此因果图G(V,E)上a∈

图3: D-分割的三种情况

D-分割理论是贝叶斯网络的基础。它是一种用来判断变量是否条件独立的图形化方法。对于一个DAG,D-分割方法可以很快的判断出两个变量是否是条件独立的。D-分割一共有三种情况,第一种情况是一个节点连接另外两个节点的箭头尾部,如图3(A)所示。根据公式(1)和图3(A)可知如果c是可观测的变量则a和b是给定c条件独立的。如果c不作为观察变量则a和b不是给定c条件独立的。第二种情况是一个节点分别连接另外两个节点的头部和尾部,如图3(B)所示。由图可知如果c是可观测变量则可得a和b是给定c条件独立的。如果c不是可观测变量则可得a和b不是给定c条件独立的。第三种情况是有两个节点都共同的指向第三个节点,如图3(C)所示。如果c作为观测变量则a和b不是给定c条件独立的。如果c不作为观察变量则可得a与b是独立的。

1995)。do的意思可以理解成“干预”。没有“干预”的概念,很多时候没有办法谈因果关系。在DAG中do(Xi) = x’i表示如下操作:将DAG中指向Xi的所有的有向边全部切断,且将Xi的取值固定为常数xi。如此得到新的DAG的联合分布可以记为p(x1,…,xn|do(Xi)= x’i)可以证明干预后的联合分布为:

p(B=b|A=a)=p(B=b|do(A) = a)。因为A是B的“原因”,“条件”和“干预”A对应的B的分布相同。但在图 4(2)中有p(B=b|A=a)=p(B=b|do(A) = a),由于A是B的“结果”,“条件”,“结果”,“原因”的分布不再等于它的边缘分布,但人为的“干预”结果A并不影响原因B的分布。

2013)在理论上相似,所以统称为虚拟事实模型。该模型的核心就是引入了一个叫做“虚拟结果”的结果。比如,我们能同时观测到同一个个体在接受“处理”和未接受处理的两个“结果”的话,我们就可以使用这两个“结果”的差异来评价“处理”对这个个体的因果作用。但是,在一般情况下这个个体在接受处理和不接受处理两种情况中只能选择一个,要么接受“处理”,要么不接受“处理”。例如,我们假设一家医疗单位要测试一种新药对于一种疾病的疗效。如果试吃药物的对象在吃完药后还能再回到和吃药前一模一样的状态。那么我们就可以设置这样的实验:让试药者试吃药物一段时间T后记录结果R1,然后让试药者回到吃药前的状态不做任何治疗,时间T后记录结果R2。那么分析R1与R2的差别,就是这种新药对于这种疾病在这个实验对象上的因果作用。显然,这种假设是不合理也是无法实现的,所以那个无法观测到结果就叫做虚拟结果。基于虚拟事实模型进行观察性研究的因果推断时需要一些假定,而这些假定是无法用观测数据进行检验的。虽然虚拟事实模型的理论很完备,但是由于这些假设使得它的实用性上存在缺陷。虚拟事实模型的理论形式如下所述。

假设Zi表示个体i接受处理与否,处理取1,对照取0;Yi表示个体i的结果变量。另外记Yi(1),Yi(0)表示个体i接受处理或者对照的虚拟结果(potential outcome),那么Yi(1)-Yi(0)表示个体i接受治疗的个体因果作用。不幸的是每个个体要么接受处理,要么接受对照Yi(1),Yi(0)中必然缺失一半,个体的因果作用是不可识别的。观测的结果是Yi=ZiYi(1)+(1-Zi)Yi(0), Zi的取值要么是0要么是1。但是,在Z做随机化的前提下,我们可以识别总体的平均因果作用(ACE):

最后一个等式表明ACE可以由观测的数据估计出来。其中第一个等式用到了期望算子的线性性质;第二个式子用到了随机化,即Z ⊥ {Y (0), Y (1)},其中⊥表示独立性。由此可见,随机化试验对于平均因果作用的识别起着至关重要的作用。

诸如物理学、行为学、社会学、医学与生命科学领域中许多研究的中心问题是对因果的阐述,即变量或事件之间直接作用关系的阐述。本文主要简单介绍了四类因果分析的方法。随着计算机科学的发展,数据存储问题的解决,各学科大数据的兴起,面向预测的关联性分析已经不能满足我们的需求。但是仍旧没有适用于大数据上的高效的因果分析方法、模型。如何在各领域大数据上利用因果分析模型方法来获取可信的因果知识近年来并没有什么突破性的进展,仍然是一个开放问题。

本文来源于哈工大SCIR

}

数据分析需要掌握以下知识:1、Excel:提到Excel大家都不陌生,很多小白非常喜欢用Excel来进行数据分析。即使是专业的分析人员,他们也会使用Excel处理聚合数据。2、SQL:SQL(结构化查询语言)是一种用于处理和检索关系数据库中存储的数据的计算机语言,是关系... 点击进入详情页


推荐于 · TA获得超过100个赞

  数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
  数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。
  数据分析与数据挖掘密切相关,但数据挖掘往往倾向于关注较大型的数据集,较少侧重于推理,且常常采用的是最初为另外一种不同目的而采集的数据。 数据分析的目的与意义
  数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。
  在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律。又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。

  在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
  探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。
  定性数据分析:又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。

  数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步:
  1、探索性数据分析,当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。
  2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。
  3、推断分析,通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。

  数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。
  识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。   二、收集数据
  有目的的收集数据,是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑:
  ① 将识别的需求转化为具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据;
  ② 明确由谁在何时何处,通过何种渠道和方法收集数据;
  ③ 记录表应便于使用;
  ④ 采取有效措施,防止数据丢失和虚假数据对系统的干扰。

  分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,通常用方法有:
  老七种工具,即排列图、因果图、分层法、调查表、散步图、直方图、控制图;
  新七种工具,即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图;

  四、数据分析过程的改进
  数据分析是质量管理体系的基础。组织的管理者应在适当时,通过对以下问题的分析,评估其有效性:
  ① 提供决策的信息是否充分、可信,是否存在因信息不足、失准、滞后而导致决策失误的问题;
  ② 信息对持续改进质量管理体系、过程、产品所发挥的作用是否与期望值一致,是否在产品实现过程中有效运用数据分析;
  ③ 收集数据的目的是否明确,收集的数据是否真实和充分,信息渠道是否畅通;
  ④ 数据分析方法是否合理,是否将风险控制在可接受的范围;
  ⑤ 数据分析所需资源是否得到保障。

本回答被提问者和网友采纳

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。
数据分析在我们日常经营分析工作中主要有三大作用: 1,现状分析 简单来说就是告诉你过去发生了什么.具体体现在: 第一,告诉你企业现阶段的整体运营情况,通过各个经营指标完成情况来衡量,以说明企业整体运营是好了还是坏了?好的程度如何?坏的程度又到哪里? 第二,告诉你企业各个业务发展及构成情况,让你了解企业各业务发展及变动情况,对企业运营情况有更深入的了解. 现状分析一般通过日常通报来完成此项工作,如日报,周报,月报等日常通报形式.2,原因分析 简单来说就是告诉你为什么发生了. 经过第一阶段的现状分析,对企业的运营情况有了基本了解,但不知道运营情况具体好在哪里?差在哪里?是什么原因引起的?这时就需要开展原因分析,以进一步确定业务变动的具体原因.如2012年2月运营收入环比2012年1月运营收入下降5%,是什么原因导致的呢?是各个业务收入都出现下降?还是个别业务收入下降引起的?是各个地区业务收入都出现下降?还是个别地区业务收入下降引起的?这就需要我们开展原因分析,进一步确定收入下降的具体原因,以便运营策略做出调整与优化. 原因分析一般通过专题分析开展来完成此项工作,根据企业运营情况选择开展.3,预测分析 简单来说就是告诉你将来发生什么. 在了解企业运营现状后,有时还需要对企业未来发展趋势作出预测,为制定企业运营目标及策略提供有效的参考决策依据,以保证企业的可持续健康发展. 预测分析一般通过专题分析开展来完成此项工作,预测分析一般在制定企业季度,年度等计划时开展,开展频率没有现状分析及原因分析频率高.

数据分析:数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥其数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程


· 百度认证:教育领域创作者

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析 将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析的目的是把隐藏在一大批看天来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。

数据分析在企业中的主要作用是支持与指导业务发展。基本合格的数据分析支持业务发展,优秀的数据分析指导业务发展。
数据分析在不同类型、规模、发展阶段的企业中,发挥的作用不一样:
在企业中的主要作用是支持与指导业务发展。基本合格的数据分析支持业务发展,优秀的数据分析指导业务发展。
数据分析在不同类型、规模、发展阶段的企业中,发挥的作用不一样:

想了解更多有关什么是数据分析方面的详情,推荐咨询。达内教育具有丰厚的师资力量,优秀的教学体系,教学质量突出,实战讲师,经验丰富,理论知识+学习思维+实战操作,打造完整学习闭环。达内教育独创TTS8.0教学系统,并设有企业双选会。达内的OMO教学模式,全新升级,线上线下交互学习,直播学,随时学,随时问,反复学,让学员学习更便捷。

下载百度知道APP,抢鲜体验

使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。

}

我要回帖

更多关于 因果分析实例 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信