The Virtues of Complex Models
发布时间:2023-08-07 | 来源: 川总写量化
摘要:跟着两位大佬一起洞悉金融机器学习的最新学术前沿(II)。
作者:石川
上期公众号翻译了 Bryan Kelly 和修大成两位教授最新的 Financial Machine Learning 的第一章。之后有小伙伴催更后续章节。
该文的第二章标题为 The Virtues of Complex Models,即复杂模型的好处。公众号的老朋友也许在最近一年以来对这个提法不再陌生。Bryan Kelly 这两年一个重要的 research agenda 就是 The Virtues of Complexity 系列,而我也很早就开始追踪他在这方面的研究成果并通过公众号多次进行了非 technical 的介绍(例如《机器学习与资产定价:Facts and Fictions》以及《因子投资的高维数时代》)。因此,虽然不敢说对这章的内容如数家珍,但也算是比较熟悉。更重要的是,我也越来越意识到 The Virtues of Complexity 对于量化投资和因子投资的启示。
因此,今天继续翻译 Financial Machine Learning 的第二章。再次感谢刘洋溢和王熙两位老师提出的宝贵修改建议。
最后,本翻译仅供学习交流使用,禁止一切商业行为,未经授权,禁止转载。
以下是正文部分。
包括我们在内的许多人在接受计量经济学培训时,都承袭了“简约原则”这一传统。该原则充分地体现在 Box and Jenkins (1970) 的模型建立方法中,对金融计量经济学产生了深远的影响。在 Box 和 Jenkins 两位关于预测的最新版教科书的引言中,“构建模型的基本观念”中的第一条就是“简约性”,他们强调“实践中,我们应使用尽可能少的参数来准确地描述一个现象,过程或数据集的性质或行为,这一点非常重要”。
在现代机器学习算法采用大规模参数化这一现实面前,简约模型似乎显得格格不入。领先的 GPT-3 语言模型(Brown et al. 2020)使用了 1750 亿个参数。即使是 Gu, Kelly and Xiu (2020) 中那个在规模上完全不可与之相提并论的收益率预测神经网络模型也有差不多 30000 个参数。对于承袭 Box-Jenkins 的计量经济学家来说,如此丰富的参数化似乎过于奢侈,容易导致过拟合,并可能在样本外产生灾难性的表现。
然而,近年来在许多金融之外其他领域的研究成果均与上述观点相悖。在计算机视觉和自然语言处理等应用中,拥有海量参数的模型,以及完美拟合训练集样本的模型,通常正是样本外表现最好的模型(译者注:不过人工智能文献也往往拥有较大的数据集、并拥有诸多数据加强的方法)。在概括神经网络文献的现状时,Belkin (2021) 总结到:“从技术可行性的角度看,最复杂的网络总是能产生最优异的表现。”显然,现代机器学习研究颠覆了计量经济学所奉行的简约原则。
人们试图为解释大规模参数化的成功寻求理论基础,并回答 Breiman (1995) 提出的问题:“为什么参数众多的神经网络没有过度拟合数据?”在本节中,我们将一窥这个问题的答案。为此,我们借鉴了统计文献中的最新发现,它们描述了“过度参数化”模型(即参数个数远超可用训练集的观测数据个数)的行为。
最新的文献已经开始回答机器学习模型的统计理论含义,并关注过度参数化模型的样本外预测准确性。在这一章,我们关注的问题是金融机器学习中过度参数化以及过拟合现象所带来的经济影响。已经有不少金融学论文发现,通过机器学习模型能显著提高收益率预测的准确性。收益率预测的主要经济用途是构造效用最优化的投资组合。我们的论述会侧重于解释“机器学习投资组合”在样本外的风险收益权衡,这些投资组合通过高度参数化的收益率预测模型而构造。我们的论述主要基于 Kelly, Malamud and Zhou (2022a) 和 Didisheim et al. (2023) 的发现。
2.1 分析机器学习模型的工具
Kelly, Malamud and Zhou (2022a) 提出了一个思想实验。设想一位分析师在寻找一个成功的收益率预测模型。假设资产收益率
其中预测变量集
在上面这个回归模型中,每个特征都是原始特征的某个事先选定的非线性变换,即
最终,分析师的目标是估计下面这个近似回归模型
为此,分析师有
也许听上去令人惊讶,但 Kelly, Malamud and Zhou (2022a) 指出分析师应该使用其算力约束下能够实现的最复杂的近似模型。样本外预测的准确性和投资组合的预期表现会随着模型复杂度而递增。为了得出这个答案,Kelly, Malamud and Zhou (2022a) 借助了两种关键的数学工具来分析复杂的非线性(即机器学习)模型。它们分别是带生成非线性特征(即上面的
2.1.1 带生成特征的岭回归
Kelly, Malamud and Zhou (2022a) 的第一个建模假设聚焦于式 (2.3) 所示的高维线性预测模型,我们称之为“实证模型”。关于式 (2.3) 的正确理解为,这一公式并非强调收益率会受到为数众多的驱动力的线性影响。相反,它表明的是数据生成过程(DGP)是未知的,但它或许可以通过一组变量
这个问题的一个鲜明特点是,实证模型往往存在模型设定偏误。在式 (2.3) 中消除模型设定偏误需要我们无限地扩展模型所包含的特征,但实际上我们只能使用有限个数的特征,即
第二个建模假设是使用岭回归作为 (2.3) 的估计量:
其中
最后,为了刻画高复杂度模型对于投资者的经济影响,Kelly, Malamud and Zhou (2022a) 假设投资者使用预测结果按照如下方式构造交易策略:
式中
尽管还存在其他合理的策略构造方式以及绩效评价标准,但上述选择均是在学术界和投资业界中的常见选择,因此它们兼顾透明性和易理解性。
2.1.2 随机矩阵理论
上述岭回归公式以线性回归的方式展示了像神经网络这样的机器学习模型。我们的愿景是,通过这种表示,可能能够对复杂模型在
当
它是
换句话说,模型复杂度对于人们理解模型的行为至关重要。如果样本数量
2.2 越大往往越好
Kelly, Malamud and Zhou (2022a) 为高复杂度机器学习模型及其相关交易策略的性质提供了严格的理论陈述。在实证部分,他们通过市场收益率的预测问题(译者注:择时问题)研究了复杂模型的参数校准问题,而我们接下来的论述将侧重于他们关于该问题的重要定性结果。具体来说,他们假设市场的年波动率为 20%,并假设当真实函数关系和预测变量对预测者完全已知时,她所能取得的“真实”(但当然是无法实现的)月频预测性
在上述参数校准问题中,他们假设真实但未知 DGP 的复杂度为
首先考虑普通最小二乘法(OLS)估计量
当
令人惊讶的是,当模型复杂度超过 1 时(译者注:根据作者的定义,这对应
图 2.1 描述了高复杂度模型的统计行为。图 2.2 则将注意力转向它们的经济后果。图中第一行右侧的子图展示了机器学习交易策略的波动率如何随模型复杂度变化。策略的波动率与
图 2.2 中第一行左侧的子图则展示了高复杂度模型的关键经济行为 —— 择时策略在样本外的预期收益率。对简单策略来说,它们的预期收益率较低。同样,这是因为简单的模型无法很好地近似真实的 DGP。增加模型的复杂度可以使人们更接近真实情况,并且单调地提升交易策略的预期收益率。
这二者对投资者最终的投资结果意味着什么?图 2.2 第二行的子图以样本外预期夏普比率为例展示了投资者的效用。样本外夏普比率可归结为经典的偏差-方差权衡。预期收益率纯粹反映偏差影响。对于低复杂度模型而言,偏差来源于模型设定偏误,而非对参数的收缩作用。对于高复杂度模型,模型设定偏误变小,但是参数收缩导致的偏差较大。理论显示,预期收益率随模型复杂度而提升,这意味着对这个预测问题而言,模型设定偏误造成的偏差比参数收缩造成的偏差代价更大。与此同时,策略的波动率纯粹由预测的方差决定。无论是简单模型(
我们可以将上述发现和“双(侧)下降”现象加以比较,“双下降”现象指的是当
总的来说,这些结果挑战了本节前言所讨论的简约主义信仰。它们表明,在实证模型存在模型设定偏误的情况下,复杂度是一种优点。这不仅对于样本外的统计表现而言是正确的(如 Belkin et al. 2019;Hastie et al. 2019 等),而且对样本外投资者的经济效用而言也是正确的。与传统的观点相反,通过让模型参数个数远超过训练集样本个数,理论上可以提高基于机器学习模型所构造的投资组合的(译者注:样本外)表现。
对于使用复杂模型的最佳实践,Kelly, Malamud and Zhou (2022a) 总结到:
我们的结果并不意味着随意向模型中添加任意预测因子。相反,我们建议:(1)模型包含所有可能相关的预测因子,以及(2)使用复杂的非线性模型取代简单的线性模型。哪怕在训练集数据稀缺的情况下,这样做也会改进预测和投资组合,这种作用在配合谨慎的参数收缩时更加明显。
为了推导出上述结果,Kelly, Malamud and Zhou (2022a) 基于的假设是可预测性在协变量之间均匀分布。乍看上去,这个假设或许过于苛刻,因为许多标准的预测变量都难以满足这一假设。然而,这个假设与标准的神经网络模型是一致的(实际上也是由此引出的),在这种模型中,原始特征被混合并通过非线性传播进而汇聚到最终生成的特征中,如式(2.2)所示。在训练神经网络的初始化步骤中,生成特征 S 的顺序会被随机打乱。此外,在实证研究中,Kelly, Malamud and Zhou (2022a, 2022b) 以及 Didisheim et al. (2023) 使用了一种被称为随机特征回归的神经网络形式,从而确保满足这一假设。
2.3 复杂度(造成的)鸿沟
Didisheim et al. (2023) 从不同角度对 Kelly, Malamud and Zhou (2022a) 进行了扩展,并提出了“复杂度鸿沟”的概念,它被定义为样本内和样本外表现的期望差异(译者注:难以逾越的差异)。简单来说,考虑实证模型不存在设定偏误问题。在低复杂度(
但当
对于资产定价而言,复杂度鸿沟有一些重要的启示。对于已实现的(可行的)预测
Da, Nagel and Xiu (2022) 考虑了一个特殊的经济环境,其中的经济主体(即套利者)采用统计套利策略并试图最大化他们样本外的夏普比率。这些套利者在学习 alpha 的数据生成过程时也面临统计难题(和上述“复杂度”类似)。Da, Nagel and Xiu (2022) 显示,在特定的低信噪比环境下,无论套利者使用哪种机器学习方法,他们都无法获得最优的夏普比率(无法实现的)(译者注:即套利者无法准确习得 DGP)。此外,即使套利者采用最优的可行交易策略,他们所获得的夏普比率与最优(但无法实现)的夏普比率之间仍然存在巨大的差距。我们将在第 4.6 章中进一步讨论上述论文的细节。
参考文献
Belkin, M. (2021). Fit without fear: remarkable mathematical phenomena of deep learning through the prism of interpolation. Acta Numerica 30, 203–248.
Belkin, M., D. Hsu, S. Ma, and S. Mandal (2018). Reconciling modern machine learning and the biasvariance trade-off. arXiv e-prints.
Box, G. E. and G. Jenkins (1970). Time Series Analysis: Forecasting and Control. San Francisco: Holden-Day.
Breiman, L. (1995). The mathematics of generalization. In: CRC Press. Chap. Reflections After Refereeing Papers for NIPS. 11–15.
Brown, T., B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei (2020). Language models are few-shot learners. In: Advances in Neural Information Processing Systems. Ed. by H. Larochelle, M. Ranzato, R. Hadsell, M. Balcan, and H. Lin. Vol. 33. Curran Associates, Inc. 1877–1901.
Da, R., S. Nagel, and D. Xiu (2022). The statistical limit of arbitrage. Working paper.
Didisheim, A., S. Ke, B. T. Kelly, and S. Malamud. (2023). Complexity in factor pricing models. Working paper.
Gu, S., B. T. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning. Review of Financial Studies 33(5), 2223–2273.
Hastie, T., A. Montanari, S. Rosset, and R. J. Tibshirani (2019). Surprises in high-dimensional ridgeless least squares interpolation. arXiv preprint arXiv:1903.08560.
Hornik, K., M. Stinchcombe, and H. White (1990). Universal approximation of an unknown mapping and its derivatives using multilayer feedforward networks. Neural Networks 3(5), 551–560.
Kelly, B. T., S. Malamud, and K. Zhou. (2022a). Virtue of complexity in return prediction. Working paper.
Kelly, B. T., S. Malamud, and K. Zhou. (2022b). The virtue of complexity everywhere. Working paper.
免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。