Cross-Section Research, Looking Forward
发布时间:2024-08-23 | 来源: 川总写量化
作者:石川
摘要:机器学习和大数据时代,资产预期收益截面差异研究的统一框架。
早先的文章《Cross-Section Research, A History》回顾了自上世纪 60 年代以来关于股票预期收益率 cross-section 的研究,包括 CAPM 以及后来的 FF3、q-factor model 这些 ad-hoc 多因子模型。该文的最后同时引出了当下流行的动态 latent beta factor model 框架:
在这个框架中,因子是 latent,建模的对象是资产对因子的暴露
鉴于 beta pricing model 和 stochastic discount factor(SDF)的等价性,本文从 SDF 的角度进一步梳理这个统一的研究框架,它能够将当下众多基于机器学习的实证资产定价模型纳入其中,代表了 cross-section research 的未来。
1
在解读框架之前,首先要回答的是为什么需要框架。这个问题的答案是:新时代的实证资产定价研究是以大数据为依托、以机器学习算法为工具,围绕资产定价理论展开;而非将数据无脑扔进高级算法,单纯指望数据发声。因此,唯有放在框架下探讨前沿进展,才能理解不同方法之间的共性和差异,从而将学术研究的最新发现映射到投资实务之中。
让我们从条件 SDF 说起:
将权重
式中
式中,
利用 managed portfolios,将原始 SDF 转化成如下静态模型:
其中
上述模型之所以是静态的,是因为系数
在这个框架下,新时代实证资产定价的研究目标为:以最大化 MVE 组合样本外夏普比率为目标,选择含有收益率预测信息的公司特征
以下两节分别探讨
2
关于
第一,针对多重假设检验问题进行调整(Harvey 2017,Harvey, Liu and Zhu 2016)。在这方面,尽管这几年更多的声音是学术发现大部分 are likely true(Jensen, Kelly, and Pedersen 2023),但我个人更支持 Harvey and Liu 的观点。对这个问题,根据经验和对数据的理解、使用合理的先验(即真实因子的百分比)才能得到对于投资实践有益的结论。而基于 ensemble null 假设的数学推导游戏(Chen 2021)毫无意义。
第二,投资者面临的高维学习问题(Martin and Nagel 2022)。理性预期假设投资者知道真实的估值模型。然而,投资者面临高维学习问题,不可能知道真实的估值模型。这会造成均衡状态下资产价格和理性预期情况下相比出现偏差。因此,在事后(ex post)分析中,已实现收益率中包含一部分因估计误差导致的可预测成分。而对投资者来说,事前(ex ante)无法利用上述可预测性。事后分析中发现的可预测性是虚假的。在这方面,最直观的例子就是将当下的技术手段所进行的高级数据分析应用于历史数据中,而历史数据那个时期并不存在同样的分析手段或者投资者使用该手段的成本极高。
第三,由 APT 可知,解释资产预期收益率的协变量应能解释资产的共同运动(Kozak, Nagel, and Santosh 2018)。所以,协变量应该和资产收益率的一阶矩以及二阶矩都有关。在这个背景下,同时考虑一阶矩和二阶矩信息的方法(例如 risk-premium PCA)取得了很好的实证结果。
3
再来看
传统的构造方法以来 portfolio sort(这主要归功于 Fama and French 的开创性工作)。而显然,在协变量的高维数时代,进行高维的 portfolio sort 是不切实际的。所以,当下的解决方案是 embrace machine learning。
然而,由于金融数据的信噪比极低以及不满足平稳性(即 alpha 会因为被交易掉而消失),导致 parameter scaling, regularization, cost function……每个选择都可能影响机器学习模型在样本外风险收益特征(Nagel 2021)。对此,学术界的一致观点是 off-the-shelf 的机器学习算法难以成功,而是要通过适当的途径注入经济学理论(例如使用贝叶斯框架)。例如,实证分析表明 ridge regression 比 OLS 在样本外能够获得更高的
此外,No-Free-Lunch 定理对于资产定价研究同样适用。不同的模型和不同的协变量选择,代表了研究者关于 SDF 的不同先验,也会有不同的实证结果。仅仅以实证结果为依据来挑选模型只能陷入 model-hacking。
4
在本文所描述的框架下,我们很容易理解并比较近年来实证资产定价研究的最新发现。例如 Bryzgalova, Pelger and Zhu (2020) 的 asset pricing tree。该文通过 decision tree 构造 managed portfolios,而在估计权重系数
让我们重申一下机器学习时代的实证资产定价研究。和传统的 ad-hoc 多因子模型以最小化样本内的 pricing errors 不同,它们以最大化样本外条件夏普比率为目标。机器学习算法可以同时处理大量解释变量、考虑变量和预期收益率的非线性关系,但使用时需施加经济学推理。近年来,学术界利用 SDF 框架或隐性因子模型范式,提出包含大量公司特征的定价模型,这种趋势代表了实证研究的未来。
最后,once again,一图胜千言。
参考文献
Bryzgalova, S., M. Pelger, and J. Zhu (2020). Forest through the trees: Building cross-sections of stock returns. Working paper.
Chen, A. Y. (2021). The limits of p-hacking: Some thought experiments. Journal of Finance 76(5), 2447–2480.
Chen, L., M. Pelger, and J. Zhu (2020). Deep learning in asset pricing. Management Science forthcoming.
Harvey, C. R. (2017). Presidential Address: The scientific outlook in financial economics. Journal of Finance 72(4), 1399–1440.
Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29(1), 5–68.
Jensen, T. I., B. T. Kelly, and L. H. Pedersen (2023). Is there a replication crisis in finance? Journal of Finance 78(5), 2465–2518.
Kozak, S., S. Nagel, and S. Santosh (2018). Interpreting factor models. Journal of Finance 73(3), 1183–1223.
Martin, I. and S. Nagel (2022). Market efficiency in the age of big data. Journal of Financial Economics 145(1), 154–177.
Nagel, S. (2021). Machine Learning in Asset Pricing. Princeton University Press.
免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。