数据分析在因果领域有最新的研究吗？

点击联系发帖人 时间：2022-10-08 18:32

因果推断在数据分析中重要吗

早在1897年，皮尔逊就警告说，在器官测量中使用两个绝对测量值的比值，可能会形成“伪相关”。自1920s以来，地质学的研究人员已经知道，使用标准的统计方法来分析成分数据可能会使结果无法解释。Aitchison认识到关于组成成分的每一个陈述都可以用成分的比率来表述，并开发出一套基本原理、各种方法、操作和工具来进行成分数据分析。其中，对数比变换方法被地质学、生态学等领域的统计学家和研究人员广泛接受，因为通过对数比变换，可以消除组成数据的样本空间（单纯性）受约束问题，并将数据投影到多元实空间中。因此，所有可用的标准多元技术都可以再次用于分析成分数据。

微生物组成的数据分析方法和工具是最近才得到发展的。方法的开发聚集于解除组成的限制：样本中的所有微生物相对丰度之和为1。约束导致组成数据驻留在单纯形而不是欧几里德空间中。为了恰当地比较微生物的组成，从样本中生物分类的相对丰度（而不是样本中生物分类的总丰度）推断出生态系统中的总分类比（OTU）。

为了避免伪相关，Lovell等提出了比例度量用于分析相对数据，因为比例是对相对数据的适当相关性分析。Erb和Notredame进一步提出了部分比例，这是从部分相关中采用的定义。为了确定物种的比例丰度，Erb等人提出了差分比例统计（2017）。它等同于分类比率的单向方差分析。

比较微生物组组成的最具代表性的研究方法是类方差分析(ALDEx和ALDEx2)。从根本上说，这两种方法都使用对数比变换技术来转换微生物组数据，从而消除了成分限制，使标准的多变量技术适用于分析。

ANCOM是一个统计框架，它的开发是为了解释在生态系统水平上检测微生物平均类群丰度差异时的成分限制，以减少错误发现。它是以成分对数比为基础的。作者将ANCOM与ZIG和t检验进行了比较，并与模拟研究和实际数据进行了比较。他们得出结论，ANCOM在大幅降低FDR和提高power方面优于ZIG方法。ANCOM很有吸引力，因为它不做分布假设，可以在线性模型框架中实现，以调整协变量和模型纵向数据。

与ANCOM相比，ALDEx和ALDEx2更全面。它们几乎适用于由高通量测序产生的任何类型的数据。它们适用于多种不同实验设计的比较。统计分析包括双样本配对t检验、方差分析和非参数检验，如Welch‘s

微生物群天生就是动态的，由与宿主和环境的相互作用驱动，并随着时间的推移而变化。因此，纵向微生物组数据分析提供了关于微生物组与宿主和环境相互作用的丰富信息。

纵向研究的显著特点是在研究过程中对受试者进行重复测量，从而可以直接评估响应变量随时间的变化。纵向研究还捕捉到个体间的差异(个体间的异质性)和受试者内部的动态变化。它提供了研究复杂的生物学、心理学和行为假说的机会，特别是那些涉及随时间变化的假说。纵向分析的优势也适用于微生物组数据。通过干预，如饮食，以及由微生物群引起的慢性病的发展和持续，将加深我们对微生物群短期和长期趋势的了解。

mBvs软件包为Lee等人提出的多元零膨胀高维协变量数据实现了贝叶斯变量选择方法。（2017）。

ZIBR软件包实现了具有随机效应的两部分零膨胀Beta回归模型（Chen and Li 2016）。我们将在第12章中说明其用法。

MicrobiomeDDA基于ZINB（零膨胀负二项式）回归模型实现了微生物组数据差异分布分析的一般框架（Chen等2018）。

metamicrobiomeR使用零膨胀的βGAMLSS进行微生物组相对丰度数据分析，并使用随机和固定效应模型进行跨研究的荟萃分析（Ho and Li 2018）。

在本章中，我们全面回顾了当前可用或已用于分析微生物组数据的统计方法和模型。旨在针对微型生物群落数据的特定特征（在横截面或纵向环境中）的统计方法和模型。这些方法将微生物组数据视为相对丰度，将原始reads计数用作输入数据集，或基于系统发育树的数据结构进行分析。

传统的统计方法仍然广泛使用，而在过去几年中已经开发出新的方法。新近开发的方法主要针对微生物组数据的一个或多个特定特征：高维，过度分散，稀疏性（带有过多的零）和复杂的协方差结构。但是，现有的统计方法仍然存在其局限性，包括：

（a）发现因果关系和因果推断时，中介分析仍处于婴儿阶段。近年来，微生物组研究已将重点从相关性转移到因果关系。在生态学中，已经讨论了如何确定因果关系，并提出了一个用于识别复杂生态系统中因果关系的框架（Sugihara等人，2012）。但是，在微生物组研究中，合适的纵向和因果推断模型非常有限。为了满足对动态和复杂的微生物组数据建模的需求，仍然需要适用于分析假设因素之间的因果关系和中介关系的统计工具。

（b）当使用经典的统计方法分析微生物比例数据时，一些研究完全忽略了微生物组数据的约束问题或组成性质。例如，皮尔逊相关分析，t检验，方差分析仍广泛用于分析微生物组数据，而无需测试数据分布或转换。

（c）目前，组成数据分析尚未解决零值问题。微生物组数据的组成数据分析主要集中在两个方面：使用对数比来避免约束问题，以及使用比例代替相关性来解决“虚假相关性”问题。两种方法都取决于对数比转换。通常，将一个较小的值添加到零读取计数以使对数比转换可定义。但是，不允许添加小值的算法。同样，人为的值是否使测试困难？

（d）基于计数的方法仍然需要提高联合建模过度分散和零通胀的能力。建议将微生物组数据视为计数数据，而不是组成数据。基于计数的模型被认为更适合于微生物组的统计和生物学研究数据，因为此方法针对微生物组的多维高维数据结构稀疏性，过度分散和零膨胀，并且具有良好的概念调整。近年来，已经在横截面或纵向设置中开发了几种基于计数的模型。但是，有些方法将细菌分类单元独立对待，而忽略了细菌分类单元之间的依赖性。尽管某些方法联合建模多个方法，但它们具有处理过度分散和/或零通胀的能力有限细菌类群。

（e）从与基于组合和基于计数的方法相比，系统进化树的方法考虑到多个分类单元的意义上看，它是另一种前景。但是，不同级别的细菌类群之间的进化比其他领域（即生态学）更为复杂。我们仍然缺乏合适的方法或模型来联合拟合多个分类单元，并考虑微生物组数据的特征，例如过度分散和/或零通货膨胀。

近年来，尤其是在三年前我们提出这本书之后，微生物组数据的统计分析已取得了巨大进展，这是通过针对横截面和纵向环境中微生物组数据特定特征的方法和模型来证明的。选择标准的统计方法，并从其他领域借鉴它们来开发自己的独特方法。一些新开发的统计方法和模型是可行的，并且非常适合微生物组数据。但是，在微生物组研究中开发统计方法和模型仍有空间。

作为一般准则，新统计方法的重点可能在以下领域：
（a）开发纵向模型和因果模型，以实现更准确的因果推论，以适应微生物组，环境和宿主之间动态而复杂的关联。前瞻性模型应具有强大的统计工具，以将微生物组的变化与宿主因素（即健康或疾病）相关联，并具有调整混杂因素的能力，以建立与反应变异性的时间甚至因果关系

（b）继续开发适当的模型，以共同拟合和有效地解释具有多元高维数据结构，过度分散和稀疏性以及零过多的微生物组数据的特征，包括荟萃分析的统计工具

（c）考虑到微生物组数据的组成性质，并使微生物组数据适合组成，同时解决了多变量高维数据结构，过度分散和稀疏性的特点。

（d）在系统树的框架下讨论和提出令人着迷的细菌分类群进化的统计模型。
这些未来的研究需要团队合作，包括生物医学研究人员，内科医生，生物信息学专家和生物统计学家。更多的机制驱动研究应基于适当的统计设计，并使用实验模型，人体样本，“组学”技术，生物信息学分析和统计建模。

}

历经三年时间，我们在2022年完成了图灵奖获得者、加州大学洛杉矶分校计算机科学教授，美国国家科学院院士，被誉为“贝叶斯网络之父”的朱迪亚·珀尔大作《因果论：模型、推理和推断》。

这本书原版的第1版写于2000年，开创了因果分析和推断的新思想和新方法，一出版就得到广泛的好评，促进了数据科学、人工智能、机器学习、因果分析等领域新的革命，在学术界产生了很大的影响。

后来又于2009年修订出了第2版，内容上结合当时因果研究的新发展，做了较大的改动。目前我们翻译的这本书英文原版是在2009年出版的，到目前已经有十多年了。

该书中文版的出版有利于广大中国学者、学生和各领域的实践人员了解和掌握因果模型、推理和推断相关的内容。特别是在当前统计学和机器学习流行的时代，如何实现从“数据拟合”到“数据理解”的转变？如何在下一个十年里，从“所有知识都来自数据本身”这一目前占据主流的假设到一个全新的机器学习范式？是否会引发“第二次人工智能革命”？

正如图灵奖授予珀尔时评价他的工作为“人工智能领域的基础性贡献，他提出概率和因果性推理演算法，彻底改变了人工智能最初基于规则和逻辑的方向。” 我们期待这种范式能够为机器学习带来新的技术方向和前进动力，并且最终能够在实际应用中发挥作用。

正如珀尔所说“数据拟合目前牢牢地统治着当前的统计学和机器学习领域，是当今大多数机器学习研究者的主要研究范式，尤其是那些从事连接主义、深度学习和神经网络技术的研究者。” 这种以“数据拟合”为核心的范式在计算机视觉、语音识别和自动驾驶等应用领域取得了令人瞩目的成功。但是，许多数据科学领域的研究人员也已经意识到，从当前实践效果来看，机器学习无法产生智能决策所需的那种理解能力。这些问题包括：稳健性、可迁移性、可解释性等。下面我们来看看例子。

近年来自媒体上的很多人都会觉得自己是统计学家。因为“数据拟合”“所有知识都来自数据本身”为许多重大决策提供了数据统计依据。但是，在进行分析时，我们需要谨慎分析。毕竟，事情可能并不总是乍看之下！一个与我们生活息息相关的案例。10年前，某城市市中心的房价是8000元/平米，共销售了1000万平；高新区是4000元/平米，共销售了100万平；整体来看，该市的平均房价为7636元/平米。现在，市中心10000元/平米，但由于市中心的土地供应少了，只销售了200万平；高新区是6000元/平米，但由于新开发的土地变多了，销售了2000万平；整体来看，现在该市的平均房价为6363元/平米。因此，分区来看房价分别都涨了，但从整体上看，会有产生疑惑：为什么现在的房价反而跌了呢？

图1 房价趋势按照不同区域划分后与总体结论相悖

我们知道这种现象叫作辛普森悖论。这些案例清楚地表明当我们没有给予足够的观察变量时，我们是如何从统计数据中得到了完全错误的模型和结论。就这次新冠大流行而言，我们通常会获得全国范围的统计数据。如果我们按地区或市县进行分组，我们可能会得出截然不同的结论。在全国范围内，我们可以观察到新冠病例数量在下降，尽管某些地区的病例数量会有所增加（这可能预示着下一波浪潮的开始）。如果存在差异很大的群体，例如人口差异很大的地区，则也可能会发生这种情况。在国家数据中，人口密度较低地区的病例激增可能与人口稠密地区的病例下降相形见绌。

类似的基于“数据拟合”的统计问题比比皆是。比如下面两个有趣的例子。

如果我们每年收集尼古拉斯·凯奇每年出演的电影数量和美国溺死人数的数据，我们会发现这两个变量高度相关，数据拟合程度奇高。

图2 尼古拉斯·凯奇每年出演的电影数与美国溺死的人数

如果我们收集每个国家人均牛奶销售量和获得诺贝尔奖人数的数据，我们会发现这两个变量高度相关。

图3 人均牛奶消费量与诺贝尔奖人数

从我们人类的常识认知来说，这些都是伪相关，甚至是悖论。但从数学和概率论的角度来看，表现出伪相关或者悖论的案例无论从数据上还是计算上都是没有问题的。如果有一些因果基础的人都知道，发生这种情况是因为数据中隐藏着所谓的潜伏变量，即未被观察到的混杂因子。

图4 独立变量导致了两个变量之间伪相关

珀尔在《因果论》中给出了解决的范式，详细分析和推导了以上问题，强调了因果与统计之间有着本质的区别，虽然因果分析与推断仍然是建立在统计学的语境上。珀尔提出了干预操作（算子）的基本计算模式，包括后门原则和具体的计算公式，这是当前对于因果关系最为数学化的描述。“因果以及相关的概念（例如随机化、混杂、干预等）不是统计概念”，这是贯穿珀尔因果分析思想的一条基本原理，珀尔称之为第一原理[2]。

那么，目前基于数据驱动的机器学习方法，特别是那些严重依赖于统计学方法的算法，学习到的模型极大可能也会出现半真半假、误导性或者反转性的结果。这是因为这些模型往往是基于观察数据的分布情况进行学习，而非数据生成的机制。

机器学习亟需解决的三个问题

稳健性：随着深度学习方法的流行，计算机视觉、自然语言处理和语音识别等研究大量利用了最先进的深层神经网络结构。但仍然长期存在这样一个事实问题，即在现实世界中，我们采集到数据的分布通常很少是完整的，与实际世界中的分布可能不一致。在计算机视觉应用中，训练集与测试集数据分布可能受到来自诸如像素差、压缩质量，或来自于摄像机位移、旋转或角度等的影响。这些变量其实就是因果概念中的“干预”问题。由此，人们提出了简单的算法来模拟干预，以专门测试分类和识别模型的泛化能力，如空间偏移、模糊、亮度或对比度的变化、背景控制和旋转，以及在多种环境中采集的图像等。到目前为止，尽管我们利用数据增强、预训练、自监督学习等方法在稳健性上取得了一定的进展，但对于如何解决这些问题还没有明确的共识。有人认为这些修正可能是不够的，在独立同分布假设之外进行泛化不仅需要学习变量之间的统计关联，还需要学习潜在的因果模型，以明确数据生成的机制，并允许通过干预概念模拟分布变化。

可迁移性：婴儿对物体的理解基于跟踪随时间变化表现一致的物体，这样的方法可以让婴儿快速学习新的任务，因为他们对物体的知识和直观理解可以重复使用。类似地，能够高效地解决现实世界中的任务需要在新的场景中重用学习到的知识技能。研究已经证明，学习了环境知识的机器学习系统效率更高，通用性更好。如果我们将现实世界模型化，许多模块在不同的任务和环境中表现出相似的行为。因此，面对新环境或新任务，人类或者机器可能只需要调整其内部表示中的几个模块。当学习因果模型时，由于大多数知识（即模块）可以在无须进一步训练的情况下重复使用，从而只需要较少的样本以适应新环境或新任务。

可解释性：可解释性是一个微妙的概念，不能仅仅使用布尔逻辑或统计概率的语言完全描述，它需要额外的干预概念，甚至是反事实的概念。因果关系中的可操纵性定义关注的是这样一个事实，即条件概率（“看到人们打开雨伞表明正在下雨”）无法可靠地预测主动干预的结果（“收起雨伞并不能阻止下雨”）。因果关系被视为推理链的组成部分，它可以为与观察到的分布相去甚远的情况提供预测，甚至可以为纯粹假设的场景提供结论。从这个意义上说，发现因果关系意味着获得可靠的知识，这些知识不受观察到的数据分布和训练任务的限制，从而为可解释的学习提供明确的说明。

因果学习建模的三个层次

具体地说，基于统计模型的机器学习模型只能对相关关系进行建模，而相关关系往往会随着数据分布的变化而变化；而因果模型基于因果关系建模，则抓住了数据生成的本质，反映了数据生成机制的关系，这样的关系更加稳健，具有分布外泛化的能力。比如，在决策理论中，因果关系和统计之间的区别更加清楚。决策理论中有两类问题，一类是已知当前环境，拟采取干预，预测结果。另一类是已知当前环境和结果，反推原因。前者称为求果问题，后者称为溯因问题[3]。

在独立同分布条件下的预测能力

统计模型只是对观察到的现实世界的粗浅描述，因为它们只关注相关关系。对于样本和标签，我们可以通过估计来回答这样的问题：“这张特定的照片中有一只狗的概率是多少？”“已知一些症状，心力衰竭的概率是多少？”。这样的问题是可以通过观察足够多的由所生成的独立同分布数据来回答的。尽管机器学习算法可以把这些事做得很好，但是准确的预测结果对于我们的决策是不够，而因果学习为其提供了一种有益的补充。就前面的例子来说，尼古拉斯·凯奇出演电影的频率和美国溺亡率正相关，我们的确可以训练一个统计学习模型通过尼古拉斯·凯奇出演电影的频率来预测美国溺亡率，但显然这两者并没有什么直接的因果关系。统计模型只有在独立同分布的情况下才是准确的，如果我们做任何的干预来改变数据分布，就会导致统计学习模型出错。

在分布偏移/干预下的预测能力

我们进一步讨论干预问题，它更具挑战性，因为干预（操作）会使我们跳出统计学习中独立同分布的假设。继续用尼古拉斯·凯奇的例子，“今年增加邀请尼古拉斯·凯奇出演电影的数量会增加美国的溺亡率吗？”就是一个干预问题。显然，人为的干预会使得数据分布发生变化，统计学习赖以生存的条件就会被打破，所以它会失效。另一方面，如果我们可以在存在干预的情况下学习一个预测模型，那么这有可能让我们得到一个在现实环境中对分布变化更加稳健的模型。实际上，这里所谓的干预并不是什么新鲜事，很多事情本身就是随时间变化的，例如人的兴趣偏好，或者模型的训练集与测试集本身在分布上就存在不匹配的现象。我们前面已经提到，神经网络的稳健性已经获得了越来越多的关注，成为一个与因果推断紧密连接的研究话题。在分布偏移的情况下预测不能只局限于在测试集上取得高准确率，如果我们希望在实际应用中使用机器学习算法，那么我们必须相信在环境条件改变的情况下，模型的预测结果也是准确的。实际应用中的分布偏移类别可能多种多样，一个模型仅仅在某些测试集上取得好效果，不能代表我们可以在任何情况下都能够信任这个模型，这些测试集可能只是恰好符合这些测试集样本的分布。为了让我们可以在尽可能多的情况下信任预测模型，就必须采用具有回答干预问题能力的模型，至少仅仅使用统计学习模型是不行的。

反事实问题涉及推理事情为什么会发生，想象实施不同行为所带来的后果，并由此可以决定采取何种行为来达到期望的结果。回答反事实问题比干预更加困难，但也是对于AI非常关键的挑战。如果一个干预问题是“如果我们现在让一个病人有规律地进行锻炼，那么他心力衰竭的概率会如何变化？”，对应的反事实问题就是“如果这个已经发生心力衰竭的病人一年前就开始锻炼，那他还会得心力衰竭吗？”显然回答这样的反事实问题对于强化学习是很重要的，它们可以通过反思自己的决策，制定反事实假说，再通过实践验证，就像我们的科学研究一样。

最后，我们来看看如何在各个领域上应用因果学习。2021年诺贝尔经济学奖授予了约书亚·安格里斯特（Joshua D.Angrist）和吉多·因本斯（Guido W.Imbens），表彰“他们对因果关系分析的方法论”贡献。他们研究了因果推断在实证劳动经济学中的应用。诺贝尔经济学奖评选委员认为“自然实验（随机试验或者对照试验）有助于回答重要问题”，但如何“使用观测数据回答因果关系”更具有挑战性。经济学中的重要问题是因果关系问题。如移民如何影响当地人的劳动力市场前景？读研究生能够影响收入增加吗？最低工资对技术工人的就业前景有何影响？这些问题很难回答，因为我们缺乏正确的反事实解释方法。

自从20世纪70年代以来，统计学家就发明了一套计算“反事实”的框架，以揭示两个变量之间的因果效应。经济学家又在此基础上进一步发展了断点回归、双重差分、倾向得分等方法，并且大量地应用在各种经济政策问题的因果性研究上。从6世纪的宗教文本到2021年的因果机器学习，包括因果自然语言处理，我们可以使用机器学习、统计学和计量经济学来模拟因果效应。经济和其他社会科学的分析主要围绕因果效应的估计，即一个特征变量对于结果变量的干预效应。实际上，在大多数情况下，我们感兴趣的事情是所谓的干预效应。干预效应是指干预或者治疗对结果变量的因果影响。比如在经济学中，分析最多的干预效应之一是对企业进行补贴对企业收入的因果影响。为此，鲁宾（Rubin）提出了潜在结果框架(potential

尽管经济学家和其他社会科学家对因果效应的精确估计能力强于预测能力，但他们对机器学习方法的预测优势也十分感兴趣。例如，精确的样本预测能力或处理大量特征的能力。但正如我们所见到的，经典机器学习模型并非旨在估计因果效应，使用机器学习中现成的预测方法会导致对因果效应的估计存在偏差。那么，我们必须改进现有的机器学习技术，以利用机器学习的优势来持续有效地估计因果效应，这就促使了因果机器学习的诞生！

目前，根据要估计的因果效应类型，因果机器学习可以大致分为两个研究方向。一个重要的方向是改进机器学习方法以用于无偏且一致的平均干预效应估计。该研究领域的模型试图回答以下问题：客户对营销活动的平均反应是什么？价格变化对销售额的平均影响是多少？此外，因果机器学习研究的另一条发展路线是侧重于改进机器学习方法以揭示干预效应的特异性，即识别具有大于或小于平均干预效应的个体亚群。这类模型旨在回答以下问题：哪些客户对营销活动的反应最大？价格变化对销售额的影响如何随着顾客年龄的变化而变化？

除了这些活生生的例子，我们还可以感觉到因果机器学习引起数据科学家兴趣的一个更深刻的原因是模型的泛化能力。具备描述数据之间因果关系的机器学习模型可泛化到新的环境中，但这仍然是目前机器学习的最大挑战之一。

珀尔更深层次地分析这些问题，认为如果机器不会因果推理，我们将永远无法获得达到真正人类水平的人工智能，因为因果关系是我们人类处理和理解周围复杂世界的关键机制。珀尔在《因果论》中文版的序中写到“在下一个十年里，这个框架将与现有的机器学习系统相结合，从而可能引发‘第二次因果革命’。我希望这本书也能使中国读者积极参与到这一场即将到来的革命之中。”

[1] 珀尔. 因果论：模型、推理和推断（原书第2版）[M]. 刘礼，等译. 北京：机械工业出版社，2022.

[2] 刘礼，吴飞，李廉. 因果关系学习的思维取向和概念分析[J]. 中国大学教学，2021（10）：35-42.

}

淘宝游戏网