多假设检验的理论及应用文献综述

 2023-08-16 04:08
  1. 选题背景和意义:

作为统计推断的重要方向之一,假设检验在越来越多的领域得以广泛应用。单个假设检验的理论和应用均已臻于成熟。而在大数据横行的时代,如在天文学、基因组学和市场营销等领域的统计推断问题通常涉及同时测试数千个、甚至数百万个无效假设。这些假设涉及到高维多变量分布的广泛参数,具有复杂性和不确定性。

在单个假设检验过程中,我们希望控制犯第一类错误的概率在一定范围内的同时,检验的功效尽可能大,通常通过p值与显著性水平进行比较判断是否拒绝原假设。但是当需要检验多个假设时,随着检验次数的增多,得到的至少发生一次第一类错误的概率也会越来越大。而运用多重假设检验方法时,就可以在检验多个假设的情况下,依然较好的控制犯第一类错误的概率。

多假设检验的研究始于二十世纪五十年代,由于生物信息学的兴起,现在已经成为了统计学的重要领域。早期的多假设检验研究主要是控制FWER,1995年Benjamini和Hochberg提出了控制FDR,为存在数千种甚至更多假设检验数量的特殊情况提出了一种新的而且权威的方法。

  1. 课题关键问题及难点:

关键问题:

  1. 查阅有关多假设检验的参考文献,了解多假设检验的基本概念。
  2. 了解多假设检验理论的发展历程,以及每一次改进的关键点。
  3. 研究不同学派中的FDR,如:贝叶斯学派、经典贝叶斯学派等。
  4. 在理解各种多假设检验的方法的基础上,用数据进行试验。
  5. 总结多假设检验的多种理论及算法。

难点:

  1. 课题内容较为深奥,查阅文献阶段需要补充大量其他方面的基础知识。
  2. 研究Storey论文中各有关贝叶斯和经典贝叶斯下的FDR算法。
  3. 总结前人关于多假设检验的研究成果。
  1. 文献综述(或调研报告):

如今是大数据时代,实际中的很多数据呈现出高维大量的特点,这使得兴起于上世纪五十年代的多假设检验问题重新回到统计学家的视野中。随着技术要求的不但提高,国内外学者在多假设检验领域也做了大量的理论研究:

江其保[1]中将多假设检验与普通单假设检验的基本特征做了对比,讨论了二者的相同点与不同点。书中介绍了多假设检验的主要问题是找出恰当的决策方案以控制整个检验过程的错误率,引出了错误率的两章最著名和最主要的定义:FWER(family-wise error rate)和FDR(false discovery rate)。此外,书中还讨论并证明了多假设检验的Bonferroni程序、Holm程序和Benjamini-Hochberg程序的合理性。

Benjamini在[2]中介绍了关于FDR(false discovery rate)研究的起源,回顾了自错误发现率被提出以来的进展,以及随后的主要概念发展。这篇综述文章理清了FDR的发展脉络,使得对FDR的学习更加有规律和逻辑。

J.D. Storey在[3]中引入了一个FDR的修改版,称为“阳性错误发现率”(pFDR),文中讨论了pFDR的优缺点,并研究了它的统计特性。当假设检验统计量服从混合分布时,证明了pFDR可以写成贝叶斯后验概率,并且可以与分类理论相联系。引入并研究了一个新的量“q值”,它是一个自然的“贝叶斯后验p值”,或者更确切地说是pFDR对p值的模拟。

S. Dudoit 和 M.J. van der Laan 在[4]中基于现有多种测试方法的局限性,为控制一个广泛的第一类错误类别,开发并实现了基于重采样的单步和分步多重检验程序(MTP)。他们建议考虑检验统计量的联合分布,在包含一般数据生成分布、原假设和检验统计量的检验问题中提供第一类错误的控制。它的一个关键部分是原始分布替代了检验统计量中的未知联合分布。MTP的输出结果包括检验统计量的拒绝域、参数的置信区间以及调整P值。这本书提供了一个详细的目录,既有多重检验方法的理论基础,同时讨论了它在R中的软件实现。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。