The Virtues of Complex Models

发布时间:2023-08-07  |   来源: 川总写量化

摘要:跟着两位大佬一起洞悉金融机器学习的最新学术前沿(II)。

作者:石川


上期公众号翻译了 Bryan Kelly 和修大成两位教授最新的 Financial Machine Learning 的第一章。之后有小伙伴催更后续章节。


该文的第二章标题为 The Virtues of Complex Models,即复杂模型的好处。公众号的老朋友也许在最近一年以来对这个提法不再陌生。Bryan Kelly 这两年一个重要的 research agenda 就是 The Virtues of Complexity 系列,而我也很早就开始追踪他在这方面的研究成果并通过公众号多次进行了非 technical 的介绍(例如《机器学习与资产定价:Facts and Fictions》以及《因子投资的高维数时代》)。因此,虽然不敢说对这章的内容如数家珍,但也算是比较熟悉。更重要的是,我也越来越意识到 The Virtues of Complexity 对于量化投资和因子投资的启示。


因此,今天继续翻译 Financial Machine Learning 的第二章。再次感谢刘洋溢和王熙两位老师提出的宝贵修改建议。


最后,本翻译仅供学习交流使用,禁止一切商业行为,未经授权,禁止转载。


以下是正文部分。





包括我们在内的许多人在接受计量经济学培训时,都承袭了“简约原则”这一传统。该原则充分地体现在 Box and Jenkins (1970) 的模型建立方法中,对金融计量经济学产生了深远的影响。在 Box 和 Jenkins 两位关于预测的最新版教科书的引言中,“构建模型的基本观念”中的第一条就是“简约性”,他们强调“实践中,我们应使用尽可能少的参数来准确地描述一个现象,过程或数据集的性质或行为,这一点非常重要”。


在现代机器学习算法采用大规模参数化这一现实面前,简约模型似乎显得格格不入。领先的 GPT-3 语言模型(Brown et al. 2020)使用了 1750 亿个参数。即使是 Gu, Kelly and Xiu (2020) 中那个在规模上完全不可与之相提并论的收益率预测神经网络模型也有差不多 30000 个参数。对于承袭 Box-Jenkins 的计量经济学家来说,如此丰富的参数化似乎过于奢侈,容易导致过拟合,并可能在样本外产生灾难性的表现。


然而,近年来在许多金融之外其他领域的研究成果均与上述观点相悖。在计算机视觉和自然语言处理等应用中,拥有海量参数的模型,以及完美拟合训练集样本的模型,通常正是样本外表现最好的模型(译者注:不过人工智能文献也往往拥有较大的数据集、并拥有诸多数据加强的方法)。在概括神经网络文献的现状时,Belkin (2021) 总结到:“从技术可行性的角度看,最复杂的网络总是能产生最优异的表现。”显然,现代机器学习研究颠覆了计量经济学所奉行的简约原则。


人们试图为解释大规模参数化的成功寻求理论基础,并回答 Breiman (1995) 提出的问题:“为什么参数众多的神经网络没有过度拟合数据?”在本节中,我们将一窥这个问题的答案。为此,我们借鉴了统计文献中的最新发现,它们描述了“过度参数化”模型(即参数个数远超可用训练集的观测数据个数)的行为。


最新的文献已经开始回答机器学习模型的统计理论含义,并关注过度参数化模型的样本外预测准确性。在这一章,我们关注的问题是金融机器学习中过度参数化以及过拟合现象所带来的经济影响。已经有不少金融学论文发现,通过机器学习模型能显著提高收益率预测的准确性。收益率预测的主要经济用途是构造效用最优化的投资组合。我们的论述会侧重于解释“机器学习投资组合”在样本外的风险收益权衡,这些投资组合通过高度参数化的收益率预测模型而构造。我们的论述主要基于 Kelly, Malamud and Zhou (2022a) 和 Didisheim et al. (2023) 的发现。


2.1 分析机器学习模型的工具


Kelly, Malamud and Zhou (2022a) 提出了一个思想实验。设想一位分析师在寻找一个成功的收益率预测模型。假设资产收益率  由如下真实模型决定


  


其中预测变量集  可能为分析师所知,但真正的预测函数  对她而言是未知的。在没有  的知识的情况下,基于通用逼近理论(例如,Hornik, Stinchcombe and White 1990),分析师决定用基础神经网络来近似  :


  


在上面这个回归模型中,每个特征都是原始特征的某个事先选定的非线性变换,即


         (2.2)


最终,分析师的目标是估计下面这个近似回归模型


        (2.3)


为此,分析师有  个训练集观测样本可供我们学习模型参数,但是她必须首先确定模型的复杂度,即预测变量的个数  。当  取值很小时,她会得到一个简单模型,该模型的好处是方差较低;但是当  取值很大时,她所得到的复杂模型也许能够更好地近似未知的数据生成过程。那么问题来了,她应该选择多大的模型复杂度(即  的取值)呢?


也许听上去令人惊讶,但 Kelly, Malamud and Zhou (2022a) 指出分析师应该使用其算力约束下能够实现的最复杂的近似模型。样本外预测的准确性和投资组合的预期表现会随着模型复杂度而递增。为了得出这个答案,Kelly, Malamud and Zhou (2022a) 借助了两种关键的数学工具来分析复杂的非线性(即机器学习)模型。它们分别是带生成非线性特征(即上面的  )的岭回归以及随机矩阵理论,后者用于在变量个数  相对于训练集样本数很大时依旧能保持类似大小的情况下分析估计量的行为。


2.1.1 带生成特征的岭回归


Kelly, Malamud and Zhou (2022a) 的第一个建模假设聚焦于式 (2.3) 所示的高维线性预测模型,我们称之为“实证模型”。关于式 (2.3) 的正确理解为,这一公式并非强调收益率会受到为数众多的驱动力的线性影响。相反,它表明的是数据生成过程(DGP)是未知的,但它或许可以通过一组变量  来近似,这组变量是从原始(可能数量有限)驱动变量  经非线性变化扩展而来的。在机器学习的术语中,  是从原始特征  派生出来的“生成特征”(例如通过非线性神经网络传播)。


这个问题的一个鲜明特点是,实证模型往往存在模型设定偏误。在式 (2.3) 中消除模型设定偏误需要我们无限地扩展模型所包含的特征,但实际上我们只能使用有限个数的特征,即  个。当  很小时,由于需要估计的参数少(方差低),因此模型很稳定,但它并不能很好地近似真实的数据生成过程(偏差大)。机器学习的一个基本前提是,更加灵活的模型(即  个数很大)能够提高预测准确性。对于这些模型而言,其参数估计可能有很多噪声(高方差),但它们确实提供了关于真实数据生成过程更准确的近似(小偏差)。从偏差—方差权衡的角度来看,事前决定最优的  值并不容易。作为经济学家,我们的终极目标是通过权衡偏差和方差以使得模型产生最优的经济结果,以期提高投资者的期望效用。正是对于上述目标的追求促使 Kelly, Malamud and Zhou (2022a) 在理论方面探究高复杂度模型的作用。


第二个建模假设是使用岭回归作为 (2.3) 的估计量:


        (2.4)


其中  是岭收缩参数。在该估计量的所有细节之中,正则化对我们如下的讨论至关重要。如果不施加正则化,那么当模型复杂度很高(即  )时,式 (2.4) 的分母是奇异的。另外我们也将看到,对于低复杂度(即  )的模型,正则化也会影响  。


最后,为了刻画高复杂度模型对于投资者的经济影响,Kelly, Malamud and Zhou (2022a) 假设投资者使用预测结果按照如下方式构造交易策略:


  


式中  表示资产的权重,它正比于模型预测结果,并用于动态调节投资组合在不同资产上的仓位。在他们的分析中,  的取值等于他们所使用的复杂模型产生的样本外预期收益率预测。此外, 他们假设投资者的投资结果通过非条件夏普比率来衡量,其定义如下:


        (2.5)


尽管还存在其他合理的策略构造方式以及绩效评价标准,但上述选择均是在学术界和投资业界中的常见选择,因此它们兼顾透明性和易理解性。


2.1.2 随机矩阵理论


上述岭回归公式以线性回归的方式展示了像神经网络这样的机器学习模型。我们的愿景是,通过这种表示,可能能够对复杂模型在  且  的情况下的预期样本外表现给出实质性的结论。机器学习模型的渐近性质与标准计量经济学所关注的场景不同(即使用当  以及  不变情况下的渐近逼近)。随机矩阵理论非常适合描述岭回归在取值较大时的行为。  为了简化符号,我们将在下面的讨论中省略  并使用模型参数化相对于训练集样本数据的程度。换句话说,我们将在接下来谈论  这一比率,并称其为“模型复杂度”。


当  时,刻画  的关键是  维样本协方差矩阵,即  。随机矩阵理论描述了  的特征值的极限分布。一旦知道这个分布就足以确定岭回归在样本外的预期预测表现(  )以及样本外策略的预期夏普比率。具体而言,它们由以下这个式子确定


        (2.6)


它是  的特征值分布的极限 Stieltjes 变换。由于 Stieltjes 变换涉及到岭矩阵  ,因此我们从式(2.6)中能够看到与它岭回归之间的密切联系。   的函数形式可以通过 Marcenko-Pastur 定理的一个推广形式来确定。通过  ,我们就可以直接计算样本外预期  和夏普比率,以及它们对于模型复杂度的敏感程度(请参考 Kelly, Malamud and Zhou (2022a) 中的第 3 和 4 部分关于上述内容的详细论述)。


换句话说,模型复杂度对于人们理解模型的行为至关重要。如果样本数量  的增长速度比预测变量的增长速度更快(即  ),那么我们可以利用传统计量经济学中当  且固定  时的渐近性质。在这种情况下,模型在样本外的预期表现将与其在样本内的估计值相一致。然而,这种情况有些不切实际且没有什么研究价值。极具研究价值的情况是把高度参数化的模型施加于稀缺数据时的情况,即  。正是在这种情况下,模型出现了令人意外的样本外表现。


2.2 越大往往越好


Kelly, Malamud and Zhou (2022a) 为高复杂度机器学习模型及其相关交易策略的性质提供了严格的理论陈述。在实证部分,他们通过市场收益率的预测问题(译者注:择时问题)研究了复杂模型的参数校准问题,而我们接下来的论述将侧重于他们关于该问题的重要定性结果。具体来说,他们假设市场的年波动率为 20%,并假设当真实函数关系和预测变量对预测者完全已知时,她所能取得的“真实”(但当然是无法实现的)月频预测性  为 20%。然而,由于缺乏足够的数据供模型学习以估计其所使用的诸多参数,模型的复杂度反而成为其学习真实数据生成过程(DGP)的障碍,因此在这种设定下推导出的最佳可行  仅仅是每月接近 1%。我们接下来将聚焦于模型存在设定偏误的情况,即实证模型所使用的预测变量仅仅是真实预测变量的子集的情况。


在上述参数校准问题中,他们假设真实但未知 DGP 的复杂度为  ,并通过参数  来控制相对于真实模型而言,实证模型的复杂度。我们分析了不同模型复杂度下实证模型的表现,其复杂度从非常简单(  ,  ,因此存在严重设误)到高度复杂(  ,  ,这对应于最丰富的近似模型且实际上还原了正确的模型设定)。复杂度很低的模型是较差的近似模型,但它们的参数可以被精确地估计。随着  的增加,实证模型能够更好地近似真实 DGP,但是如果在不考虑正则化的前提下,其预测方差会增加。在参数设定问题中,我们同时也考虑了一系列岭罚项  的取值。


首先考虑普通最小二乘法(OLS)估计量  ,它是当  时方程 (2.4) 的特例。当  时,模型非常简单,因而不具备逼近真实 DGP 的能力且  基本为零。随着  的增加并不断(从小于  的情况)接近  时,模型对真实 DGP 的近似有所改进,但普通最小二乘估计量的分母会“爆炸”,导致预测误差的方差激增。这个现象可以通过图 2.1 加以说明。当  时,模型完美地拟合训练集数据(这在机器学习术语中被称作“插值”训练集数据)。出于这个原因,  也被称为“插值边界”。因此,对于  “爆炸”(译者注:其范数急剧上升,说明模型的方差非常高)的现象的一个常见解释是模型对训练集数据的过拟合,因而模型在样本外数据上的泛化性能将会很差。


f1.png


当  超过  时,我们便进入了过度参数化或高复杂度区域。在这种情况下,参数的个数超过了观测数据的数量,因此最小二乘问题的解不再唯一,且在这时回归变量协方差矩阵的逆矩阵是未定义的。然而,它的伪逆矩阵是存在的,并且对应于最小二乘问题的特定唯一解:  。在所有能够完美拟合训练集数据的解中,上面这个解具有最小的 L2 范数。实际上,当收缩参数  趋近于零时,上述解和如下岭回归估计量等价:


  


  被称为“岭参数趋于零的”回归估计量(译者注:原著中用的是 ridgeless,表示上式中  趋于  的情况。此处,将 ridgeless 直译为无岭或者无脊均不能表明  趋于  ,因此译为“岭参数趋于零的”。在后文中,为了避免使用这一长串翻译,我选择保留英文 ridgeless)(对应图 2.1 中的蓝色曲线)。当  时,普通最小二乘就是 ridgeless(译者注:即没有正则化)估计量,而当  时,ridgeless 情况则通过极限  来定义。


令人惊讶的是,当模型复杂度超过 1 时(译者注:根据作者的定义,这对应  的情况),ridgeless 回归的  值上升了。这背后的原因是,随着  的增大,ridgeless 回归可以在更大的解空间中进行搜索,从而找到 L2 范数最小且仍然能够完美拟合训练集样本的  值。这实际上恰好起到了一种收缩作用,使  的估计值向零有偏收缩。这种偏倚造成了预测方差的下降以及  的提高。换句话说,尽管  ,但 ridgeless 解仍然对最小二乘估计量施加了正则化,且  越大,正则化的强度越大。当  非常大时,样本外预期  变为正数。上述 ridgeless 最小二乘的特性是统计学文献中新近发现的现象,尚处于研究的萌芽阶段。它表明通过令模型复杂度(即协变量的维数)超过样本大小,能够提高收益率预测的准确性,这挑战了标准金融经济学研究中重视模型简约性的铁律。


图 2.1 描述了高复杂度模型的统计行为。图 2.2 则将注意力转向它们的经济后果。图中第一行右侧的子图展示了机器学习交易策略的波动率如何随模型复杂度变化。策略的波动率与  的范数以及  一一对应(这三个量是预测误差方差的不同表示方法)。其中重要的一点是,随着模型复杂度超过  ,交易策略的波动率持续下降。复杂度加强了 ridgeless 估计量中(间接的)正则化强度,从而降低了收益率的波动率(并且  会进一步降低波动率)。


图 2.2 中第一行左侧的子图则展示了高复杂度模型的关键经济行为 —— 择时策略在样本外的预期收益率。对简单策略来说,它们的预期收益率较低。同样,这是因为简单的模型无法很好地近似真实的 DGP。增加模型的复杂度可以使人们更接近真实情况,并且单调地提升交易策略的预期收益率。


f2.png


这二者对投资者最终的投资结果意味着什么?图 2.2 第二行的子图以样本外预期夏普比率为例展示了投资者的效用。样本外夏普比率可归结为经典的偏差-方差权衡。预期收益率纯粹反映偏差影响。对于低复杂度模型而言,偏差来源于模型设定偏误,而非对参数的收缩作用。对于高复杂度模型,模型设定偏误变小,但是参数收缩导致的偏差较大。理论显示,预期收益率随模型复杂度而提升,这意味着对这个预测问题而言,模型设定偏误造成的偏差比参数收缩造成的偏差代价更大。与此同时,策略的波动率纯粹由预测的方差决定。无论是简单模型(  )还是高度复杂的模型(  ),都会产生低方差。鉴于上述偏差-方差权衡的特点,一个自然的结论就是样本外夏普比率也随模型复杂度而增加,正如图 2.2 所示。


我们可以将上述发现和“双(侧)下降”现象加以比较,“双下降”现象指的是当  接近零时,模型样本外的均方误差(MSE)关于模型复杂度呈现出非单调的模式(Belkin et al. 2018;Hastie et al. 2019)。对于我们的问题而言,MSE 的双下降现象对应着 ridgeless 回归中夏普比率的“双上升”现象(译者注:即在  两侧,夏普比率均出现上升,见图 2.2 第二行中代表 ridgeless 回归结果的蓝线)。Kelly, Malamud and Zhou (2022a) 证明,当  时,ridgeless 回归夏普比率的下降是由于收缩不足造成的。只要施加足够程度的收缩(Kelly, Malamud and Zhou 2022a 明确描述了这个问题),即使在模型复杂度较低的情况下,增加复杂度也是有益的:夏普比率的下降消失了,而“双上升”现象也变成“持续上升”现象。


总的来说,这些结果挑战了本节前言所讨论的简约主义信仰。它们表明,在实证模型存在模型设定偏误的情况下,复杂度是一种优点。这不仅对于样本外的统计表现而言是正确的(如 Belkin et al. 2019;Hastie et al. 2019 等),而且对样本外投资者的经济效用而言也是正确的。与传统的观点相反,通过让模型参数个数远超过训练集样本个数,理论上可以提高基于机器学习模型所构造的投资组合的(译者注:样本外)表现。


对于使用复杂模型的最佳实践,Kelly, Malamud and Zhou (2022a) 总结到:


我们的结果并不意味着随意向模型中添加任意预测因子。相反,我们建议:(1)模型包含所有可能相关的预测因子,以及(2)使用复杂的非线性模型取代简单的线性模型。哪怕在训练集数据稀缺的情况下,这样做也会改进预测和投资组合,这种作用在配合谨慎的参数收缩时更加明显。


为了推导出上述结果,Kelly, Malamud and Zhou (2022a) 基于的假设是可预测性在协变量之间均匀分布。乍看上去,这个假设或许过于苛刻,因为许多标准的预测变量都难以满足这一假设。然而,这个假设与标准的神经网络模型是一致的(实际上也是由此引出的),在这种模型中,原始特征被混合并通过非线性传播进而汇聚到最终生成的特征中,如式(2.2)所示。在训练神经网络的初始化步骤中,生成特征 S 的顺序会被随机打乱。此外,在实证研究中,Kelly, Malamud and Zhou (2022a, 2022b) 以及 Didisheim et al. (2023) 使用了一种被称为随机特征回归的神经网络形式,从而确保满足这一假设。


2.3 复杂度(造成的)鸿沟


Didisheim et al. (2023) 从不同角度对 Kelly, Malamud and Zhou (2022a) 进行了扩展,并提出了“复杂度鸿沟”的概念,它被定义为样本内和样本外表现的期望差异(译者注:难以逾越的差异)。简单来说,考虑实证模型不存在设定偏误问题。在低复杂度(  )的情况下,根据大数定律可知,样本内的估计会收敛于真实模型。这种收敛性保证了模型的样本内表现能够准确地反映其样本外的预期表现。也就是说,在低复杂度情况下,样本内和样本外表现之间没有差异。


但当  时,由模型复杂度而带来的(译者注:样本内外表现之间的)鸿沟便开始出现,它由两个部分组成。复杂度使得训练出的模型在样本内的可预测性程度高于真实模型中可预测性的程度 —— 这是过度拟合的传统定义,也是鸿沟的第一个组成部分。另外,高复杂度也意味着缺少足够的数据(相对于其参数个数)来训练模型,以期它来还原真实模型 —— 复杂度使得大数定律在这里不再成立。这是鸿沟的第二个组成部分,即模型在样本外的表现要逊色于真实的模型。这种不足可以被视为由于模型复杂度导致的“学习的局限性”。复杂度鸿沟 —— 模型在样本内和样本外表现的期望差异 —— 是过拟合和学习局限性共同作用的结果。


对于资产定价而言,复杂度鸿沟有一些重要的启示。对于已实现的(可行的)预测  ,我们可以通过随机矩阵理论来反推出“真实”(但不可行的)模型中可预测性的程度。许多研究已经表明,使用机器学习模型可以获得显著的(正向)样本外预测收益率预测,其中对于股票而言月频可预测性大约为 1%。这个实证结果,结合学习局限性的理论推导,意味着真实的(不可行)预测  必须要高的多。同样的,即使真实模型暗示存在无风险套利(或者简单地说,非常高的夏普比率)机会,学习的局限性也让这些机会对于现实世界的投资者而言如同“水中望月”,难以触及。在一个现实的实证环境中,Didisheim et al. (2023) 指出,由于难以准确估计复杂的统计关系,因此可获得的夏普比率相对于已知真实 DGP 时所能获得的夏普比率大约要低一个数量级。


Da, Nagel and Xiu (2022) 考虑了一个特殊的经济环境,其中的经济主体(即套利者)采用统计套利策略并试图最大化他们样本外的夏普比率。这些套利者在学习 alpha 的数据生成过程时也面临统计难题(和上述“复杂度”类似)。Da, Nagel and Xiu (2022) 显示,在特定的低信噪比环境下,无论套利者使用哪种机器学习方法,他们都无法获得最优的夏普比率(无法实现的)(译者注:即套利者无法准确习得 DGP)。此外,即使套利者采用最优的可行交易策略,他们所获得的夏普比率与最优(但无法实现)的夏普比率之间仍然存在巨大的差距。我们将在第 4.6 章中进一步讨论上述论文的细节。



参考文献

Belkin, M. (2021). Fit without fear: remarkable mathematical phenomena of deep learning through the prism of interpolation. Acta Numerica 30, 203–248.

Belkin, M., D. Hsu, S. Ma, and S. Mandal (2018). Reconciling modern machine learning and the biasvariance trade-off. arXiv e-prints.

Box, G. E. and G. Jenkins (1970). Time Series Analysis: Forecasting and Control. San Francisco: Holden-Day.

Breiman, L. (1995). The mathematics of generalization. In: CRC Press. Chap. Reflections After Refereeing Papers for NIPS. 11–15.

Brown, T., B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei (2020). Language models are few-shot learners. In: Advances in Neural Information Processing Systems. Ed. by H. Larochelle, M. Ranzato, R. Hadsell, M. Balcan, and H. Lin. Vol. 33. Curran Associates, Inc. 1877–1901.

Da, R., S. Nagel, and D. Xiu (2022). The statistical limit of arbitrage. Working paper.

Didisheim, A., S. Ke, B. T. Kelly, and S. Malamud. (2023). Complexity in factor pricing models. Working paper.

Gu, S., B. T. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning. Review of Financial Studies 33(5), 2223–2273.

Hastie, T., A. Montanari, S. Rosset, and R. J. Tibshirani (2019). Surprises in high-dimensional ridgeless least squares interpolation. arXiv preprint arXiv:1903.08560.

Hornik, K., M. Stinchcombe, and H. White (1990). Universal approximation of an unknown mapping and its derivatives using multilayer feedforward networks. Neural Networks 3(5), 551–560.

Kelly, B. T., S. Malamud, and K. Zhou. (2022a). Virtue of complexity in return prediction. Working paper.

Kelly, B. T., S. Malamud, and K. Zhou. (2022b). The virtue of complexity everywhere. Working paper.



免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。