文献综述(或调研报告):
有史以来,人们就很关心因果关系,也就是说,在这个世界上究竟什么引发了什么。虽然因果关系在人类的思想中是一个很基本的概念,但它总是被神秘,争议和谨慎包围着。当一个事件真正引发了另外一个事件的时候,科学家和哲学家们往往很难去进行定义。比如,人们很容易把原因定义为产生结果的事物,而把结果定义为由原因产生的事物,这样因果关系的定义陷入—个循环。我们都知道公鸡打鸣不是天亮的原因,但就是这种简单的事实也不能够被轻易地转变为一个数学的方程。为了清楚地阐述因果关系,首先要基于一些假设进行因果关系的建模,进而在特定的因果关系模型下研究因果关系。
目前,因果推断采用的两个主要模型是潜在结果模型[1,2]和因果网络模型[3,4]。潜在结果模型给出了因果作用的数学定义。该模型主要用在原因和结果变量已知的前提下,定量评价原因变量对结果变量的因果作用。因果网络模型是描述数据产生机制和外部干预的形式化语言。因果网络是将贝叶斯网络加上外部干预,用来定义外部干预的因果作用和描述多个变量之间的因果关系。利用因果网络不仅能定量评价因果作用,还能定性确定混杂因素,用于从数据挖掘因果关系。
利用潜在结果模型,文献[1]针对试验性研究给出了因果作用的数学定义,文献[2]将这一定义推广到观察性研究。文献[5]定义观察性研究为根据经验观察推断因果作用的研究,但不能采用有控制的试验,也不能随机地分配处理。观察性研究不再满足随机分配的条件,在这种情形下,如果忽略协变量,仅用随机化试验推断方法估计因果作用就会导致偏差。这个偏差甚至会造成悖论,如Yule-Simpson悖论[6,7]。解释这个悖论的一个很好的例子是Bickel等[8]关于加利福尼亚大学伯克莱分校的研究生入学中是否存在性别歧视的研究。判断和确定哪些变量或因素是混杂因素的问题是因果推断中最基本和关键的问题。判别混杂因素的准则大致分为两大类:可压缩性准则和可比较性准则。
为了消除协变量的分布在处理组与对照组之间的差异,匹配方法经常用在观察性研究中。匹配方法的目的是对每一个个体匹配一个具有相同或相近协变量取值的个体集合,使得匹配得到的数据在处理组和对照组有相同的协变量分布,然后根据匹配数据推断因果作用。早期的匹配方法根据一个或几个协变量直接构造匹配集合[9,10]。但是在很多应用中,协变量维数较高,难以决定根据哪些协变量构造匹配集合。文献[11]提出了倾向得分匹配方法,根据一个一维的倾向得分构造匹配集合,目前已经是观察性研究中常使用的匹配方法。
工具变量已被广泛应用在经济学、社会学、流行病学和生物统计学的观察性研究中,这方面的研究数不胜数。与因果推断密切相关的问题包括,半参数和非参数结构方程模型的估计[12,13]、在二值结果变量模型中的应用[14,15]、Mendel随机化研究中的应用[16]和弱工具变量的问题[17,18]。工具变量最近的综述性文章参见文献[14,19]。文献[20-22]回顾了使用阴性对照变量检测混杂的方法。在流行病学和生物统计研究中,阴性对照变量还被用来校正混杂导致的偏差[23,24–26],但这些方法通常需要很强的模型假定。如何使用阴性对照变量得到确定性的因果推论和识别因果作用,目前的研究很少。最近,文献[27–29]系统地研究了用阴性对照变量识别因果作用的方法和所需要的条件。文献[29]引入的混杂桥函数为使用阴性对照变量识别因果作用奠定了基础。
在科学研究中,特别是在医学和生物学试验中,当感兴趣的终点指标难以观测时,常会取而代之观测替代指标或标记物。如何寻找或确定替代指标是一个尚未解决的问题。在医学临床试验中一些常用的替代指标遭到了质疑,文献[30–33]指出了在临床试验中由于使用替代指标错误评价治疗效果的实例,例如,AIDS病临床试验中采用的替代指标CD4、预防骨质疏松采用的替代指标骨密度等。目前有若干种确定替代指标的准则,最直观的准则是要求替代指标与终点指标有强相关性。但是,强相关的替代指标不意味着因果关系。例如,小孩鞋子尺寸与记忆的单词量有很强的正相关性,增加鞋子尺寸并不能增加单词量。文献[34]提出了统计替代指标的准则,除了要求替代指标与终点指标相关之外,还要求给定替代指标下处理与终点指标条件独立。统计替代指标只是切断了处理与终点指标的相关关系,不能切断因果关系。文献[35]提出了切断处理与终点指标之间因果关系的主替代指标,处理对替代指标没有因果作用的话,处理对终点指标就没有因果作用,即满足因果必要性。文献[36]利用因果网络图提出了强替代指标的准则,要求强替代指标切断处理到终点指标的因果路径。文献[37]提出了替代指标悖论,即处理(或称治疗)对替代指标有正的因果作用,并且替代指标对终点指标也有正的因果作用,但是该处理对终点指标有负的因果作用。例如,任何一个人假若心律正常一定比心律不正常活得更长,某种药可以显著纠正心律失常,但是这种药反而减少患者的寿命[38]。文献[37]指出了前面所述的准则都不能避免替代指标悖论的发生。
Pearl教授获得了2011年图灵奖,他的主要贡献是提出了因果网络图模型,开创了多因素之间的概率因果推理方法,在人工智能不确定性推理方面取得了突破性进展。目前,因果网络方法已经被广泛应用于众多科学领域。Pearl基于贝叶斯网络提出了外部干预的概念,用外部干预的概念对因果关系给出了一种形式化方法,建立了因果网络模型[3,4]。因果网络突破了传统统计推断从数据发现相关关系的禁锢,开创了从数据中发现因果关系及数据产生机制的方法论,为探索从数据中发现蕴藏在数据中的“为什么”建立了基础。文献[39]提出了概率图模型的统计推断和计算方法及其在专家系统中的应用,建立了大规模因果网络和贝叶斯推断的基础,取得了专家系统和人工智能中不确定性概率推理的突破性进展。尽管控制随机试验是发现因果关系的首选方法,但在实际场景中,控制试验由于道德、成本和技术等多方面因素,往往是不可行的。为此,众多学者致力于从纯观测数据中发现因果关系。研究表明,在特定假设下,随机变量间的部分或完整因果关系可以从观测数据中还原[4]。文献[3,4,40,41]详细描述了因果网络图,探讨由观察性研究得到的数据进行因果推断的统计方法。
在因果网络的框架下,研究两类问题:其一是因果作用的可识别性;另一个是因果网络的学习。识别因果作用的目的与潜在结果的因果模型的目的是一致的,即探讨判断混杂因素的准则和研究因果作用的可识别性[42]。关于因果作用的问题,利用因果网络可以得到比潜在结果模型更精准的判断混杂因素的准则[43]。例如,一个变量与处理变量和结果变量相关时,基于潜在结果模型不能判断该变量不是混杂因素;但是利用因果网络,如果它不是处理变量和结果变量的共同原因,那么可以判断它不是混杂因素。文献[42,43]描述了根据因果网络判断哪些变量是混杂因素,哪些变量不是混杂因素的方法。文献[44]基于因果网络模型提出了前门准则的可识别方法,传统的流行病学没能意识到这个新奇的结果。基于因果网络模型方法的弱点是,在实际中很难得到一个已知的因果网络。潜在结果模型的方法不需要一个已知的因果网络,但是需要可忽略处理分配假定或者工具变量假定[45]。文献[46]将因果网络与潜在结果模型结合,给出了判断混杂因素的综合准则,不要求已知一个完整的因果网络,但需要一个充分大的集合其包含处理变量的父节点集合。
因果网络学习又分为因果网络的参数学习和结构学习。参数学习是在因果网络结构已知的条件下利用数据估计参数。根据因果网络的联合分布,采用最大似然估计或贝叶斯方法估计条件概率p(xi|pai)。因果网络结构学习有两类方法:基于评分的搜索方法和基于条件独立检验的方法。20世纪90年代伊始,条件独立性检验的方法已被用于因果网络结构的发现。文献[47]提出了IC算法,为了改善IC算法的效率,文献[48]提出了PC算法。文献[49]提出了Stable PC算法,通过对骨架学习及因果定向规则的修改,降低了PC算法对随机变量的序列关系的敏感度,使其在高维变量的场景中仍能获得稳定的学习效果。FCI/RFCI算法及其变体被提出[41,50],用以在未观测混杂变量和样本选择偏差存在的情形下学习因果结构,这些方法在PC邻接搜索的基础上,利用额外的条件独立性检验以处理潜在混杂变量。文献[51]提出了基于核的独立性检验方式并给出条件独立零假设下的渐近分布构造方法,以支持非线性假设下的因果关系发现。Copula PC[52]将PC算法中基于相关矩阵的独立性检验更新为基于Gauss耦合函数相关矩阵的独立性检验,以支持混合变量(连续和离散变量并存)下的因果结构学习。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。