False In-Sample Predictability ?
发布时间:2021-06-22 | 来源: 川总写量化
作者:石川
摘要:Martin and Nagel (2019) 指出投资者 high-dimensional learning 有可能造成样本内虚假的可预测性。
1
让我们从两组实证结果说起。下图是 Fama and French (2015) 五因子(除了 SMB)和 Carhart (1997) 动量因子在 1963 到 2008 年之间的表现,无一例外的,它们都获得了显著的超额收益。由于时间跨度和相关论文所涉及的实证区间接近,我们可以把它们视作样本内的表现。
再来看看样本外……
怎么说呢?“此时无声胜有声”。看完了美股,再来看看 A 股上中国版四因子的表现。下图统计了市场、SMB、VMG(基于 Earnings-to-Price ratio 构造的价值因子)以及 PMO 四因子在样本内、外以及全样本的表现(样本的划分是根据该模型的论文)。
Again,“此时无声胜有声”。此处无意进一步探讨因子的表现,只是想通过这两个例子引出本文要探讨的内容。在过去的 30 年,学术界提出了大量样本内显著的因子和异象(zoo of factors),然而绝大多数在样本外都无法持续。至于这背后的原因,目前有两种主流看法。一种是由于多重假设检验,大多数因子都是 p-hacking 的结果(Harvey, Liu, and Zhu (2016));另一种则是因子在样本外之所以变差是因为套利者把它们交易了(McLean and Pontiff (2016))。
而今天要解读的 Martin and Nagel (2019) 则给出了第三种可能。该文题目是 Market Efficiency in the Age of Big Data,作者是 Ian Martin 和 Stefan Nagel。看过上期推文的小伙伴会知道这就是我说的 Stefan Nagel 的背靠背的第二篇。针对大量样本内显著样本外消失的可预测性,该文提出了一个新颖的视角 —— high-dimensional investor learning。正如下图所描绘的,在大数据时代,人们面对着指数级增长的数据量,而能够影响公司未来基本面的变量也在无限扩张(例如会计报表数据,公司财报中的措辞,分析师一致预期,量价数据,公司所处行业的景气度,以及各种宏观经济变量和其他另类数据)。在这个背景下,传统的实证资产定价检验受到了巨大的挑战。
传统实证资产定价假设理性预期(rational expectation),即假设投资者知道哪些变量影响公司基本面以及它们和基本面的关系,即 基本面 = f(预测变量) 对投资者是已知的,并在这个前提下通过历史数据(在样本内)检验市场有效性。一旦原假设被拒绝便认为变量获得的超额收益代表着风险补偿或定价错误。然而,Martin and Nagel (2019) 指出,在大数据时代,投资者根本无法知道到底哪些变量能够影响公司基本面,以及变量和基本面之间的关系
从直观上来理解,这是因为投资者高维学习问题会导致均衡状态下资产的价格和理性预期情况下相比出现偏差;该偏差的存在将造成事后(ex post)从计量经济学家的视角来看,已实现收益率不再随机,而是包含了一部分可预测的成分;因此当人们事后用统计检验分析变量和收益率的关系时,会误以为某些变量对收益率有预测性(且在高维问题下,即变量越来越多时,这个偏差造成的影响愈加明显)。
但实际的情况是,对投资者来说,这种可预测性在事前(ex ante)是感知不到的;对进行事后检验的计量经济学家来说,样本内的可预测性仅仅是源自由投资者学习
下面就来深度解读这篇文章。
2 Model
本节介绍 Martin and Nagel (2019) 使用的模型。令
由上式可知,模型中假设
其中
接下来是关于投资者的设定。该文假设投资者是风险中性(risk-neutral)以及同质的(homogeneous)。此外,他们还假设无风险收益率为 0。在风险中性 + 无风险收益率为 0 下,资产的 risk premium 为零,因此稍后对模型求解时发现的任何 in-sample return predictability 都不应归结为 risk premium(因为 risk premium 已经在模型中被排除了)。同质性则意味着所有投资者对于
有了资产和投资者,接下来就要开始研究投资者如何对资产估值、确定其均衡状态下的价格,以及在这个过程中造成的资产收益率的可预测性。为了简化,Martin and Nagel (2019) 使用了单期估值模型。由于投资者是风险中性且利率为零,因此
由上式可知,均衡状态下资产的价格
3 Rational Expectation
在探讨 investor learning 之前,我们先来看基准,即理性预期的情况。理性预期下假设投资者知道真实的
在理性预期下,由于投资者无需估计
由于
从实证资产定价检验的角度来说,我们关注的是事后联合检验
由
在没有任何可预测性的原假设下,该投资组合在样本内的预期收益为
4 OLS Learning
首先来看最简单(但稍微不太满足实际)的情况 —— 投资者直接使用 OLS 来估计
然后用
和理性预期(上一节)不同,由于投资者不知道真实的
而 realized return 为:
站在投资者在
将其代入
怎么样,在 OLS learning 下,
和理性预期相比,投资者对
与理性预期相比,OLS learning 造成事后检验的回归系数
没有可预测性的原假设下,
让我们串一下上面“可预测性”产生的逻辑。该逻辑是因为投资者不知道
5 Bayesian Learning
通过上一节的介绍,希望各位小伙伴搞清楚 Martin and Nagel (2019) 想要干什么了。但是我负责的说,OLS learning 因为有些问题,并不是他们关注的重点。下面就来上点“硬货”—— Bayesian learning。好消息是,有了 OLS learning 做铺垫,本节的内容会容易理解地多(我写起来也容易的多)。
为了简化模型,Martin and Nagel (2019) 假设投资者的先验是
和 OLS learning 相比,Bayesian learning 下的
其中
1.
2.
3.
比较 Bayesian learning 和 OLS learning 可知二者的差异就体现在
在 Bayesian learning 下,投资者通过
毫无疑问,和理性预期以及 OLS learning 相比,这个
上表中,我特地使用了相同的颜色圈出了相似的项。和 OLS learning 相比,Bayesian learning 中又多了额外的一项(第一项),而它的第二项则对应 OLS learning 的第一项,其中的差异是,Bayesian Learning 的第二项中多了收缩系数
1. 第一项是因为往先验收缩,因此投资者对基本面信息
2. 第二项和 OLS learning 类似,是噪声对投资者估计的影响。不过
3. 最后一项和理性预期一样,为
接下来如法炮制,利用上述
当
最后,我们再来回顾下“可预测性”产生的原因。投资者通过 Bayesian learning 估计
6 Out-of-Sample
以上就是关于投资者的 high-dimensional learning 如何影响事后样本内统计检验的研究。在该文的后半部分,Martin and Nagel (2019) 也详细讨论了样本外的可预测性。结论就是,investor learning 不会产生样本外的可预测性,这显然非常符合逻辑。按照投资组合的视角,它可以表述为:
假设有两个互不重叠的时间窗口。如果我们使用窗口 1 来检验
就我个人的看法,Martin and Nagel (2019) 的发现对学术界的意义重大。在实证资产定价研究中,学术界通常假设理性预期(即投资者不存在学习问题),因而无一例外都是事后通过样本内的数据来检验某个异象或者因子的超额收益是否显著大于零。这一惯例在过去 30 年内产生了大量样本内显著的异象,但是其中的绝大多数在样本外压根不好使或者无法被复现(Hou, Xue, and Zhang (2020))。而究其原因,除了 p-hacking 以及被套利走之外,Martin and Nagel (2019) 给出了另一个解释。
在大数据时代,我们有了过去无可比拟的数据量。然而,投资者面临更加复杂的高维预测和估计问题。大数据如何影响投资者的估计,如何影响均衡状态下资产的价格,如何影响市场的有效性?这些都是等待回答的问题。毫无疑问,Martin and Nagel (2019) 是一个有益和大胆的尝试,而它提出的 investor learning 问题也足以引起人们的重视。
所有历史数据都是样本内[3]。
备注:
[1] 但这丝毫不影响这是一个很好的开端,我们也有理由期待今后拓展的模型会有更深入的发现。
[2] 如果
[3] 见《所有历史数据都是样本内》。
参考文献
Carhart, M. M. (1997). On persistence in mutual fund performance. Journal of Finance 52(1), 57 – 82.
Fama, E. F. and K. R. French (2015). A five-factor asset pricing model.Journal of Financial Economics 116(1), 1 – 22.
Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29(1), 5 – 68.
Hou, K., C. Xue, and L. Zhang (2020). Replicating anomalies. Review of Financial Studies 33(5), 2019 – 2133.
McLean, R. D. and J. Pontiff (2016). Does academic research destroy stock return predictability? Journal of Finance 71(1), 5 – 32.
Martin, I. and S. Nagel (2019). Market efficiency in the age of big data. Working paper, available at: https://ssrn.com/abstract=3511296.
免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。