多重假设检验的源起、中兴和未来

发布时间:2024-04-17  |   来源: 川总写量化

作者:石川

摘要:实证资产定价中,多重假设检验容易造成样本内的伪发现。本文带你了解多重假设检验的源起,中兴和未来。


1 源起


多重假设检验(multiple hypothesis testing)指的是同时检验多个原假设。在实证资产定价中,使用历史数据挖掘成百上千个因子正是多重假设检验。当同时检验多个假设时,运气成分(噪声)会导致单个原假设检验结果的显著性被高估。当排除了运气成分后,原假设可能不再显著。


在单一假设检验中,通常以 0.05 作为 p-value 的阈值来判断是否接受原假设,其对应的 t-statistic 为 2.0。这也早已成为实证资产定价中挖因子的依据。然而多重假设检验的存在使得低 p-value 无法准确说明因子是否有效。假设我们同时检验 100 个独立的因子并发现某个因子的 t-statistic = 2.0。在这种情况下,我们不能说该因子在 0.05 的显著性水平下显著。这是因为哪怕这 100 个原假设都为真(即它们的超额收益都为零),那么仅仅靠运气,其中出现 t-statistic 大于 2.0 的概率高达 99%。如果仍然按照传统意义上的 2.0 作为 t-statistic 的阈值来评价因子是否显著,注定会有很多伪发现(false discoveries 或 false rejections),即第 I 类错误。因此,正确处理多重假设检验的影响成为实证资产定价的关键。


在这方面,学术界的研究成果可以被划分为两大类,即频率主义方法和贝叶斯方法。为了排除运气(噪声)的影响,频率主义方法以控制第 I 类错误为目标,通过增大标准误(standard errors)来修正单个因子的显著性水平。直觉上说,增大标准误意味着增大置信区间,因而这使得单个检验的显著性门槛更加严格:只有当一个因子原始的 t-statistic (远)超过传统意义上的 2.0 水平,其才有可能在被修正后依然显著。


早期的方法多属于频率主义方法,目标是控制第 I 类错误。在统计学中,族错误率(family-wise error rate,简称 FWER)、伪发现率(false discovery rate,简称 FDR)以及伪发现比例(false discovery proportion,简称 FDP)是常见的第 I 类错误指标。让我借助下表来解释它们。


f1.png


假如一共有  个因子,其中  个原假设为真,  个原假设为假。根据事先选定的显著性水平(比如 0.05),共有  个原假设被拒绝了,其中包括  个真实的显著因子(true discoveries)和  个虚假的显著因子(伪发现)。接下来利用  和  分别定义族错误率、伪发现率以及伪发现比例。


族错误率 FWER 定义为出现至少一个伪发现的概率,即  。在给定的显著性水平  下,控制 FWER 的数学表达式为  。不难看出,控制族错误率对单个假设来说相当严格,所以会大大提升第 II 类错误。针对族错误率,最早的算法包括 Bonferroni (1936) 和 Holm (1979) 修正,它们均是直接修正单一假设检验的 p-value 以实现控制族错误率的目的:


  


其中  和  分别代表第  个因子原始和经过修正后的 p-value;以及


  


其中  第  个因子经修正后的 p-value。需要说明的是,Holm (1979) 按照因子原始 p-value 从小到大依次修正。无论是哪种方法,由于修正后的 p-value 往往大于原始 p-value(即修正后的 t-statistic 会比原始 t-statistic 更低),因此降低了因子的显著性(即很多因子不再显著)。


近年来,还有一些以控制族错误率为目标的算法被提出,包括 White (2000) 的 bootstrap reality check 方法和 Romano and Wolf (2005, 2007) 的 StepM、k-StepM 方法等。这三种算法均通过自助法(bootstrap)对因子收益率数据进行重采样,并在此基础上结合正交化求出 t-statistic 的阈值,因而无需对数据的分布做任何假设。


在上述描述中,正交化和自助法两个词反映了这些算法以及频率主义方法的核心。正交化的作用是消除因子在样本内的收益率均值,使因子收益率在时序上成为均值为零的随机扰动;自助法的作用是通过对正交化后的收益率进行采样从而得到仅靠运气成分而造成的检验统计量的分布,以此就可以判断原始因子的显著性是真实的还是仅仅是噪声造成的。值得一提的是,由于太过严苛,以控制族错误率为目标并不是很适合金融领域。


伪发现率 FDR 的定义为  的期望,即  。在给定的水平  下控制它可以表达为  。从定义可知,控制伪发现率允许  随  增加。由于控制目标是伪发现比例,因此它是一种相对温和的方法。这意味着,当以伪发现率代替族错误率为控制目标时,会有更多的原假设被拒绝。这其中的代表算法包括 Benjamini and Hochberg (1995) 和 Benjamini and Yekutieli (2001)。这类算法对检验统计量之间的相关性不敏感,适应性更强。


最后,控制伪发现比例 FDP 的目标是限制  超过某给定阈值  的概率不高于显著性水平  ,即  。常见的算法包括 Romano and Wolf (2007) 和 Romano, Shaikh and Wolf (2008)。以控制上述三种统计量为目标的算法在统计学中得到了广泛的应用。对于金融领域,一般认为以控制伪发现率和伪发现比例为目标是更好的选择。Harvey, Liu and Saretto (2020) 对不同算法进行了综述。


2 中兴


近年来,学术界越来越重视多重假设检验问题对因子显著性的影响,在这方面也诞生了很多优秀的研究成果。在介绍这些研究成果之前,让我们先来简要回顾一下相关的背景。


2017 年,时任美国金融协会(AFA)主席 Campbell Harvey 教授在年会上以 The Scientific Outlook in Financial Economics 为题进行了主席演讲。以一个学者应有的科学态度和操守,Harvey 教授深刻剖析了近年来学术界在实证资产定价研究中的一个错误趋势。为了竞逐在顶级期刊上发表文章,学者们通过各种数据窥探手段过度追求因子的低 p-value(即 p-hacking)。由于有意或无意的数据操纵、使用不严谨的统计检验手段、错误地理解 p-value 的含义、以及忽视因子的内在经济学逻辑,很多在功利心驱使下被创造出来的因子在实际投资中根本站不住脚(McLean and Pontiff 2016)。此外,发源于因子投资、在业界早已成为主流的 Smart Beta ETF 基金也饱受 p-hacking 问题困扰。Huang, Song and Xiang (forthcoming) 记录了这类基金被推出后其表现相较于其样本内表现急剧下滑的实证发现,并指出过度的数据挖掘是这背后的罪魁祸首。


要论为学术界敲响多重假设检验警钟的代表性论文,Harvey, Liu and Zhu (2016) 当仁不让。该文研究了学术界发表的 316 个因子。以控制伪发现率为目标,该文发现只有一个因子原始 t-statistic 超过 3.0 时,其才在排除多重假设检验的影响后依然是有效的。除此之外,该文指出在全部三百多个因子中,伪发现的比例高达 27%。


在试图消除多重假设检验的影响时,除了选择合适的统计手段外,另一个必须面对的问题是到底有多少个原假设被同时检验(即有多少因子被挖出)。这个问题之所以重要,是因为基数决定了运气的多寡。比如,检验 100 个和 10000 个因子相比,万里挑一的肯定要比百里挑一的更显著。所以,只有知道学术界到底挖了多少因子,才有可能准确修正多重假设检验问题。


看到这里,有的读者可能会问,Harvey, Liu and Zhu (2016) 考虑了 300 多个因子、Hou, Xue and Zhang (2020) 复现了 450 个左右因子,它们是否就是学术界挖掘的全部呢?不幸的是,答案是否定的。因为这些仅仅是被发表出来的因子,而学术界在这背后到底尝试了额外多少因子是无从而知的。由于已发表的因子是所有被研究因子的子集,因此我们可以判断 Harvey, Liu and Zhu (2016) 发现的 3.0 阈值仅仅是保守估计。幸运的是,Chordia, Goyal and Saretto (2020) 创造性使用模拟推断出基于研究的因子集的统计特征如何消除多重假设检验的影响。该文将 t-statistic 的阈值进一步提升至 3.4 以上,且模拟计算显示,伪发现比例高达 45.3%。


频率主义方法依赖于引入衡量评价多个假设整体第 I 类错误的指标(例如族错误率或伪发现率),并以此为目标调整单一假设检验的显著性。与频率主义方法相对应的,是贝叶斯方法。贝叶斯方法允许人们引入从经济学理论得出的关于因子是否为真的先验。但缺点是完整的贝叶斯框架计算十分复杂,因此人们有时不得不做出一些妥协和简化。


Scott and Berger (2006) 在贝叶斯框架下提出了研究因子收益率的一个三层模型。利用该模型,人们可以计算出每个因子为真的后验概率。随着同时检验的假设个数(即因子个数)的增加,后验概率将更加接近 0。换句话说,随着噪声信号(虚假因子)个数的增多,真实因子传递出来的证据也会随之而降低,这体现出和频率主义方法相对应的对多重假设检验的惩罚。这正是贝叶斯框架自带奥卡姆剃刀效应,即根据同时被检验的因子的个数自动调整因子为真的后验概率的原因。


虽然完整的贝叶斯框架理论完整,但实操起来也有很多问题。例如它的假设(尤其条件独立性方面的假设)太过苛刻,且在计算方面,当同时考虑的因子个数很多时,计算每个因子为真的后验概率极具挑战。第三,即便得到了每个因子为真的后验概率,我们依然需要构建一个判断准则,即后验概率高于多少阈值的因子可以被视为真。然而在这方面,目前还没有太多指导。


鉴于完整贝叶斯框架的实践应用充满挑战,人们便希望退而求其次通过别的方式利用贝叶斯思想。在这方面,Harvey (2017) 提出了最小贝叶斯因子,并通过它计算贝叶斯后验 p-value 进而判断因子是否显著。为了让各位小伙伴更好地理解最小贝叶斯因子以及贝叶斯后验 p-value,先来说说 p-value 的正确含义。由定义可知,p-value 表示原假设下观测到某(极端)事件的条件概率。因此,p-value 越低,说明在原假设(因子预期收益率为零)下越不太可能出现样本数据中的平均收益率。


若以  代表极端事件,则 p-value 表示  。然而,“p-value 越低”和“因子越能获得超额收益”这二者并不等价。对于后者而言,人们关心的应该是在极端事件  发生的前提下,原假设为真的条件概率,即  ,但这并非 p-value 回答的问题。把  错当成  是一个非常严重的错误。


Harvey (2017) 通过最小贝叶斯因子计算了贝叶斯后验概率,从而回答人们真正关心的问题  。由贝叶斯统计可知,先验机会比(prior odds ratio)、后验机会比(posterior odds ratio)以及贝叶斯因子(Bayes factor)之间满足如下关系:


  


令  和  代表关于因子预期收益率的原假设和备择假设,则贝叶斯因子定义为两个似然函数之比


  


令  表示  的参数。在检验因子预期收益率时,通常原假设为 0,因此可以将  写成  。但是对于备择假设,为了让分析更具一般性,往往认为在  下,对应的参数  服从先验分布  。在这种情况下,其似然函数为  ,因此贝叶斯因子变为


  


对于检验因子来说,后验机会比是我们真正关注的问题。它告诉我们原假设和备择假设后验概率的高低——一个特别低的后验机会比意味着原假设的后验概率很低,因此我们可以安全地拒绝原假设,即认为因子是真实的。不过,想要计算后验机会比,就必须要先算出贝叶斯因子。但从上面的定义可知,计算它时需要指定备择假设下的先验分布,但这往往非常困难。不过好消息是,在众多贝叶斯因子的取值中,有一个特殊的取值,它就是最小贝叶斯因子(minimum Bayes factor,简称 MBF)。


为了直观理解最小贝叶斯因子,我们来回顾一下后验机会比  先验机会比  贝叶斯因子。上式可以理解为,对于  和  来说,我们从先验机会比出发,通过乘以贝叶斯因子得到后验机会比。当给定先验机会比时,贝叶斯因子越小(因此后验机会比越低),那么相对于先验,我们在后验中对原假设仍然持有的信念就越弱;贝叶斯因子越大(因此后验机会比越高),那么相对于先验,我们在后验中对原假设仍然持有的信念就越强。因此,贝叶斯因子衡量了当我们看到样本数据之后,会在多大程度上偏离先验机会比,而最小贝叶斯因子提供了对于原假设而言最强烈程度的偏离。


直观理解最小贝叶斯因子后,我们便能够顺水推舟地搞懂如何计算它。最小贝叶斯因子对应着一个特殊的备择假设下的先验分布,提供了反对原假设的最强烈证据。考虑下面这个例子,假设有 1000 个因子收益率的观测值,其样本均值为 4%。那么在什么情况下我们会得到最小贝叶斯因子呢?这个问题的答案是:在备择假设的先验分布中,所有的数据都集中在 4% 这个样本均值,即备择假设的先验分布的密度集中在数据的最大似然估计值时,贝叶斯因子是最小的。


通过以上论述可知,最小贝叶斯因子允许人们计算原假设后验概率的下界。更为关键的是,它回答的是人们真正关心的问题,即给定数据时原假设为真的条件概率。利用原始 p-value 或 t-statistic, Harvey (2017) 给出了计算最小贝叶斯因子的两种方法:


  


此外,利用后验机会比  先验机会比  贝叶斯因子并经过简单代数运算,可以方便地求出原假设为真的后验概率,即贝叶斯后验 p-value:


  


为了在实际操作中应用贝叶斯后验 p-value,除了需要知道最小贝叶斯因子外,还需要指定先验机会比。为此,一些经验法则为:(1)对于严重缺乏经济学依据的因子,先验机会比 49:1;(2)对于似是而非的因子,先验机会比 4:1;(3)对于具备经济学理论依据的因子,先验机会比 1:1。


3 未来


除了以上标准意义上的贝叶斯方法,近年来的另一个新的思路是对贝叶斯思想的拓展,即通过先验知识决定真实因子在所有因子中的占比,然后通过 bi-modal mean 分布对真实和虚假因子的预期收益率建模。这方面的代表是 Harvey and Liu (2020, 2021)。在我看来,它们代表实证资产定价中多重假设检验的未来。


不过仍需指出的是,它们并非传统意义上的贝叶斯方法,仍属频率主义方法范畴。但由于它们都通过一个先验参数  控制真实因子的比例,因而可以被视作贝叶斯思想的延伸。通过引入  ,不仅使得对多重假设检验的处理更加贴近现实,也让人们能够在第 I 和第 II 类错误之间权衡。这在第 II 类错误的成本越来越高的今天显得尤为重要。


回顾一下,频率主义方法中的多重假设检验修均可以归纳到正交化和自助法这两个核心思想的综合运用。其中正交化的作用是在样本内剔除每个因子的超额收益(即把因子转变为噪声);自助法则是在正交化后的基础上通过重采样数据,以此获得仅由运气造成的因子收益率的 t-statistic 的分布。在得到该分布后,传统频率主义方法往往以控制事先约定的第 I 类错误上限(例如常见的 5%)来选定 t-statistic 的阈值,并以此确定真实因子。在传统方法中,存在两个问题:


1. 正交化过程通常会对所有因子进行(这隐含的假设是所有因子的超额收益均为零)。然而在现实中,这种处理忽视了先验的作用。对于待检验的诸多因子而言,人们可根据金融学先验认为其中一定比例的因子是真实的,然而传统方法忽视了这一信息。


2. t-statistic 阈值的确定一般是以控制第 I 类错误为唯一目标。这么做的结果是,传统多重假设检验方法的第 II 类错误率往往很高,因此功效(  ) 往往很低。举个极端的例子,如果某个算法把所有原假设都接受了,那么它也就没能发现任何真正的因子,即功效为零。


在  越来越稀缺的当下,第 II 类错误的成本变得越来越高,让人们愈加重视两类错误之间的取舍。尽管如此,传统方法仅关心第 I 类错误(即控制伪发现)也实在是无奈之举。这是因为哪怕对于单一假设检验,计算第 II 类错误率都并不容易,更不用说多重假设检验问题。如果想要计算第 II 类错误率,就必须知道备择假设下参数的取值。但显然,对于成百上千个因子来说,遍历它们备择假设下的预期超额收益率不切实际。这个巨大的障碍使得人们难以将单一检验中计算第 II 类错误率的方法复制到多重假设检验问题中。


在这种背景下,Harvey and Liu (2020) 通过引入先验知识并使用一个基于双层自助法的框架,同时解决了上述两个问题。对于第一个问题,他们借鉴了基金研究中经常使用的 bi-modal mean 分布(Harvey and Liu 2018):即绝大部分因子是虚假的,它们预的期收益率来自均值为零的分布;而一小部分因子是真实的,它们的预期收益率来自均值非零的分布。人们可以根据自身的经验(即先验)来选择真实因子的比例  ,它是贝叶斯思想的体现。另外,通过双重自助法,该框架可以同时计算第 I 和第 II 类错误,实现了二者之间的权衡,解决了上述第二个问题。二位作者通过大量的实证论证了其方法的先进性。


以下针对 A 股中常见的 95 个因子应用上述双层自助法。下图给出了不同  下,控制 5% 的第 I 类错误率所需要的 t-statistic 阈值。从中可以看出,随着先验中真实因子占比(  )的增加,控制伪发现所需的 t-statistic(单调)下降。该图很好地表明了贝叶斯思想的重要性。在传统多重假设检验方法中,由于不指定  ,正交化会被作用于所有因子,导致 t-statistic 的阈值过高(对应下图中  的情况)。而当人们有足够的理由对待检验的因子给出合理的先验时,通过合适的  就能够求出更加符合实际的 t-statistic 阈值。


图片


近年来,Harvey 教授和他的长期合作者刘岩教授(对,Harvey and Liu 里面的 Liu!)一直致力于呼吁学术界抵制追逐超低 p-value 的不良学术风气。两位的诸多实证结果不仅质疑了过去几十年来学术研究中挖掘出的相当一部分因子,更是从某种程度上挑战了学术研究的权威。然而,出于对学术风气和学术成果的保护,站在他们对立面的质疑之声也同样此起彼伏。这其中首当其冲的要数 Chen (2021) 和 Jensen, Kelly and Pedersen (2023)。


Chen (2021) 通过思想实验指出仅靠 p-hacking 根本无法解释学术界发现的诸多非常显著的因子,并通过他的模型得出了一系列推论,间接指出对于 p-hacking 的担忧可能被夸大了。然而,无论是学术界还是业界,大家的共识是所有因子预期收益联合为零(即前文提到的 ensemble null 先验)这个原假设一定会被拒绝,即人们都认可存在一部分显著因子。因此,根本没有人否认仅靠 p-hacking 无法解释一些非常显著的真实因子被发现。但是人们也同样相信,多重假设检验和发表偏差的影响促使一些虚假因子的诞生。所以,在所有因子中,到底有多少是真实的?更进一步,对于通过多重假设检验修正的真实因子,它们的收益率在样本外的收缩系数又是多少?然而 Chen (2021) 并没有回答这些问题。


面对质疑,Harvey and Liu (2021) 做出了回应。在检验因子时,除去被发表的之外,还需要考虑因为不够显著而被学者们放弃的因子,这些构成了总共被尝试的因子。但现实中,总共尝试的因子个数是未知的。为了解决这个难题,Harvey and Liu (2021) 再次对因子预期收益率使用了 bi-modal mean 先验分布,并通过理论模型和参数校准回答了关键问题。参数校准的结果或许让人有些意想不到(但细想其实是合理的),即这个问题本身是未识别的(lack of identification)。换句话说,它的最优参数不唯一。在三组参数下,模拟得到的统计指标均和实际值较好地吻合。而这个问题之所以是未识别的,原因恰恰是人们观察到的只有被发表的因子,而学术界到底尝试了多少个因子永远是未知的。这是在研究 p-hacking 问题时注定无法逃避的现实。至于它可能的取值范围则取决于研究者的经验和对实证数据的理解。


Jensen, Kelly and Pedersen (2023) 是另一篇维护既往实证研究发现的文章。该文通过经验贝叶斯模型发现,即便考虑了多重假设检验问题,因子平均收益率的标准误也无需被扩大(即显著性不会受到明显影响),因此绝大多数已发表因子都是成立的,金融实证研究不存在复制危机。然而,他们的模型也隐含着让人们指定真实因子的比例(即  )。如果先验认为真实因子的比例足够高,那么多重假设检验确实不会造成太大的影响,而传统意义上的 2.0 阈值也仍然可以被用来检验因子。使用前文实证中的 95 个因子,我们发现当  等于 50% 时(即认为一半的因子为真), 2.0 的 t-statistic 阈值可以将伪发现率控制在 4% 以下(因此满足常见的 5% 的要求)。归根到底,人们关于真实因子的合理先验对于正确应对多重假设检验问题至关重要。


谈到多重假设检验,其他学科对它的重视其实由来已久,而金融学对它的重视则相对较晚。但好消息是,Harvey 和刘岩两位教授在这项 research agenda 上的探索,已经让人们充分意识到这个问题,并开始通过各种手段来降低 p-hacking 的影响。由于多重假设检验的危害颇具争议性,因此学术界以开放的心态来讨论它至关重要。正如前文所述,因为人们只观测到了被发表的因子,而不知道到底尝试了多少因子,所以这个问题注定是未识别的。正因如此,对 p-hacking 的研究确实存在主观的一面。坦然承认这个计量上的系统问题,并通过合理的先验得到令人信服的结论,才是应有的研究态度。


最后,一图总结多重假设检验的源起、中兴和未来。


f3.png


参考文献

Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society, Series B 57(1), 289-300.

Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under dependency. Annals of Statistics 29(4), 1165-1188.

Bonferroni, C. E. (1936). Teoria Statistica Delle Classi e Calcolo Delle Probabilità. Florence, Italy: Libreria Internazionale Seeber.

Chen, A. Y. (2021). The limits of p-hacking: Some thought experiments. Journal of Finance 76(5), 2447-2480.

Chordia, T., A. Goyal, and A. Saretto (2020). Anomalies and false rejections. Review of Financial Studies 33(5), 2134-2179.

Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. Journal of Finance 72(4), 1399-1440.

Harvey, C. R. and Y. Liu (2018). Detecting repeatable performance. Review of Financial Studies 31(7), 2499-2552.

Harvey, C. R. and Y. Liu (2020). False (and missed) discoveries in financial economics. Journal of Finance 75(5), 2503-2553.

Harvey, C. R. and Y. Liu (2021). Uncovering the iceberg from its tip: A model of publication bias and p-hacking. Duke University, Purdue University.

Harvey, C. R., Y. Liu, and A. Saretto (2020). An evaluation of alternative multiple testing methods for finance applications. Review of Asset Pricing Studies 10(2), 199-248.

Harvey, C. R., Y. Liu, and H. Zhu (2016). ... and the cross-section of expected returns. Review of Financial Studies 29(1), 5-68.

Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics 6(2), 65-70.

Hou, K., C. Xue, and L. Zhang (2020). Replicating anomalies. Review of Financial Studies 33(5), 2019-2133.

Huang, S., Y. Song, and H. Xiang (forthcoming). The smart beta mirage. Journal of Financial and Quantitative Analysis.

Jensen, T. I., B. T. Kelly, and L. H. Pedersen (2023). Is there a replication crisis in finance? Journal of Finance 78(5), 2465-2518.

McLean, R.D. and J. Pontiff (2016). Does academic research destroy stock return predictability? Journal of Finance 71(1), 5-32.

Romano, J. P., A. M. Shaikh, and M. Wolf (2008). Formalized data snooping based on generalized error rates. Econometric Theory 24(2), 404-447.

Romano, J. P. and M. Wolf (2005). Stepwise multiple testing as formalized data snooping. Econometrica 73(4), 1237-1282.

Romano, J. P. and M. Wolf (2007). Control of generalized error rates in multiple testing. Annals of Statistics 35(4), 1378-1408.

Scott, J. G. and J. O. Berger (2006). An exploration of aspects of Bayesian multiple testing. Journal of Statistical Planning and Inference 136(7), 2144-2162.

White, H. (2000). A reality check for data snooping. Econometrica 68(5), 1097-1126.



免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。