资产定价中的实证挑战 (III)

发布时间：2025-02-10 | 来源: 川总写量化

作者：石川

摘要：本文对比传统计量经济学与机器学习的建模范式。两种范式在目标导向（解释性 vs 预测性）与建模逻辑（假设驱动 vs 数据驱动）的根本差异，正重塑实证资产定价的方法论体系，为应对高维非线性定价难题提供新路径。

0 前文回顾

前文《资产定价中的实证挑战 (I)》和《资产定价中的实证挑战 (II)》勾勒了当下实证资产定价面临的各种挑战。作为系列的第三篇，本文探讨这种挑战对统计建模有怎样的启示。对实证资产定价来说，以下这组公式描述它的核心问题：

$\begin{array}{rll} r_{i,t+1}&=&\mathbb{E}[r_{i,t+1}|\pmb{x}_{i,t}]+e_{i,t+1},\quad\quad(1)\\ \mathbb{E}[r_{i,t+1}|\pmb{x}_{i,t}]&=&f(\pmb{x}_{i,t}), \end{array}$

其中 $r_{i,t+1}$ 是 $t+1$ 期资产 $i$ 的超额收益率，高维向量 $\pmb{x}_{i,t}$ 表征了我们在 $t$ 期能够获得的全部信息， $\mathbb{E}[r_{i,t+1}|\pmb{x}_{i,t}]$ 是基于 $\pmb{x}_{i,t}$ 所含信息对资产 $i$ 的 $t+1$ 期超额收益率所做的展望（即条件预期超额收益率）， $e_{i,t+1}$ 是随机噪声（满足 $\mathbb{E}[e_{i,t+1}|\pmb{x}_{i,t}]=0$ ）。问题 (1) 的核心是找到将 $\pmb{x}_{i,t}$ 映射到 $\mathbb{E}[r_{i,t+1}|\pmb{x}_{i,t}]$ 的函数 $f()$ 。

我们暂且将收集和处理 $\pmb{x}_{i,t}$ 的问题搁置一旁，而把讨论的重点聚焦在找寻 $f()$ 上。为了给下文的讨论定下基调，让我们从 Leo Breiman 提出的关于统计建模的两种文化讲起。Leo Breiman 在他的著名论文 Statistical Modeling: The Two Cultures 中，详细探讨了统计建模的两种文化（Breiman 2001）。

本文的讨论受到了 Mullainathan and Spiess (2017)、Athey and Imbens (2019) 以及 Kelly and Xiu (2023) 这三篇经典论文的启发。在讨论统计建模时，你无法也不应忽视 Breiman 描述的两种文化。

1 Data Modeling

第一种是数据建模（data modeling）文化。它假设数据生成过程是基于某个随机模型，并基于这一假设进行统计推断。这种文化的主要目标是为了理解数据中的结构和关系。换言之，对于传统的数据建模文化而言，其核心是基于一系列假设和理论来理解数据产生的机制。

人们熟知的计量经济学方法便属于这种文化；计量经济学依赖于建立明确的模型来解释变量之间的关系，通常模型会假设线性关系、误差的正态分布等。这种方法的主要目标是参数估计而非预测，旨在解释变量之间的因果关系。当数据满足模型假设时，这种方法能提供有力的因果关系解释。

回到问题 (1)，从计量经济学的角度，我们使用协变量的线性函数 $\hat f(\pmb{x}_{i,t}) = \pmb{\theta}^\top\pmb{x}_{i,t}$ （其中 $\pmb{\theta}$ 代表未知参数）近似 $f$ ，即假设 $r_{i,t+1}$ 和 $\pmb{x}_{i,t}$ 之间满足如下线性回归模型：

$r_{i,t+1} = \pmb{\theta}^\top\pmb{x}_{i,t}+e_{i,t+1}.$

利用实际收益率和协变量数据，我们可以通过 OLS 估计上述模型中的参数 $\pmb{\theta}$ 。当模型满足 Gauss-Markov 定理的假设时，OLS 估计量是最优线性无偏估计量（BLUE）。为了进行统计检验，人们通常假设随机扰动满足正态分布，并以此构造关于 $\pmb{\theta}$ 的检验统计量，进而对协变量的预测信息进行统计推断。

传统的实证研究方法，无论是时序回归还是以 Fama and MacBeth (1973) 为代表的截面回归，都是遵循这种文化。然而，如果人们关心的是预测准确性而非参数估计的无偏性会怎样呢？例如，我们可以以牺牲无偏性为代价构造一些有偏的估计量，从而保证更低的方差以抵消偏差的上升，并最终达到整体均方误差的降低。James and Stein (1961) 提出的收缩估计量就是这样一个例子。因此，具有无偏性质的 OLS 估计量并非均方误差最小的估计量。另外，当协变量的个数很多、逼近甚至超过样本个数又会怎样呢？

2 Algorithmic Modeling

第二种是算法建模（algorithmic modeling）文化。这种方法更加注重预测的准确性而非模型的解释性。算法建模通常不会关于数据生成过程做出严格的结构性假设，而是使用数据驱动的方法来直接从数据中学习，即人们常说的``让数据发声''。包括决策树、随机森林、神经网络等机器学习模型就是这种文化的代表。这种方法的优势是它可以灵活地处理复杂、非线性和高维的数据，而无需假设数据的结构或关系。当然，机器学习模型常被人诟病的是其黑箱特性，即缺乏传统模型的可解释性。

再回到实证资产定价。我们可以将机器学习中的监督学习视为函数逼近问题，从而去找寻 $f$ 。在这种文化下，我们不对数据做任何结构性假设，而是选定一类模型（例如神经网络） $\hat f\in \mathcal{F}$ 并在给定的损失函数（loss function） $\mathcal{L}$ 下从数据中学习模型的参数（用来供模型学习的数据被称为训练集数据）。

为了便于讨论，令 $(\pmb{x}_i, y_i)$ 代表训练集的第 $i$ 个观测值（此处下标 $i$ 表示观测值 $i$ 而非个股，即 $(\pmb{x}_i, y_i)$ 表示某期某个股票的协变量以及和它对应的该股票下一期的超额收益率），并假设一共有 $n$ 个观测值（例如，对于期数为 $T$ 、资产个数为 $N$ 的面板数据， $n = N\times T$ ）。机器学习会以最小化所有观测值的损失函数均值为目标估计 $\hat f$ 的参数，即

$\displaystyle\text{minimize }\frac{1}{n}\sum_{i=1}^n \mathcal{L}(\hat f(\pmb{x}_i), y_i).\quad\quad (2)$

然而，对于机器学习来说，建模的核心是最优化模型在样本外的泛化性能，或最小化泛化误差。因此，为了防止式 (2) 这个朴素优化目标过度拟合训练集数据，伴随机器学习而来的一个重要概念就是正则化（regularization）。在式 (2) 中加入正则化项可得：

$\displaystyle \text{minimize }\frac{1}{n}\sum_{i=1}^n \mathcal{L}(\hat f(\pmb{x}_i), y_i)+\mathcal{R}(\hat f).$

正则化项 $\mathcal{R}(\hat f)$ 通过约束模型的复杂度来调节偏差（bias）和方差（variance）之间的权衡（bias-variance tradeoff），进而实现最优的泛化性能。令 $(\pmb{x}, y)$ 表示某个样本外的新观测值，其中 $y$ 由真实模型以及噪声决定，即 $y=f(\pmb{x})+e$ （假设噪声的方差为 $\sigma^2$ ）。另一方面，模型 $\hat f$ 的预测值为 $\hat f(\pmb{x})$ 。模型的泛化误差 $\mathbb{E}[(y-\hat f(\pmb{x}))^2]$ 经过推导可分解为：

$\begin{array}{rll} \mathbb{E}[(y - \hat{f}(\pmb{x}))^2] &=& \text{var}(e)+(f - \mathbb{E}[\hat{f}])^2+\text{var} [\hat{f}]\\ &=& \sigma^2+\text{bias}[\hat f(\pmb{x})]^2+\text{var} [\hat{f}(\pmb{x})], \end{array}$

式中第一项是随机噪声的方差，不可被消除；第二项表示偏差的平方；第三项表示方差。偏差是模型预测的期望值与真实值之间的差异。高偏差意味着模型的预测值在整体上偏离了真实值，即模型过于简单（欠拟合），没有捕捉到数据中潜藏的模式。方差衡量了模型预测值的变化范围。高方差意味着模型对于训练集数据的小波动非常敏感，即模型过于复杂（过拟合），捕捉了训练数据中的噪声。最优的模型应该一方面足够灵活以捕捉数据内在关联，而另一方面又不至于太过灵活以至于对噪声建模。

最优的正则化强度一般通过超参数调优（hyperparameter tuning）确定。为此，可以将样本数据划分成训练集和测试集，并使用交叉验证（cross-validation）来评估不同正则化强度下模型的泛化能力。相对于计量经济学，更加灵活的机器学习方法可以逼近非线性、高维和复杂的函数关系，而无需显式地设定模型的形式。这也让机器学习成为应对当下实证资产定价挑战的天然工具。

3 Comment

当我们透过两种文化审视计量经济学和机器学习时，可以清晰地看到二者的差异。正如 Breiman (2001) 所强调的那样，传统统计方法和机器学习研究目标的最根本差异在于，前者在假设数据模型已知的前提下估计模型参数并进行统计检验；而后者在未知数据模型的前提下最大化预测准确性（或最小化泛化误差）。

换言之，对于计量经济学而言，参数估计先于预测准确性；而对于机器学习来说，预测准确性先于参数估计。

如果从资产定价的实证研究目标来审视这一差异，计量经济学主要关注于定价模型能否在样本内（in-sample）为测试资产（test asset）定价 —— 即测试资产在给定定价模型下的定价误差是否在统计上为零；而机器学习则主要关注于基于定价模型预测而构造的投资组合在样本外（out-of-sample）能否获得最优的风险调整后收益（如夏普比率）。

本文从两种文化出发为实证研究范式的转变奠定了基础。在本系列的后续，我将从更微观的层面探讨它们各自所遇到的挑战。

参考文献

Athey, S. and G. W. Imbens (2019). Machine learning methods that economists should know about. Annual Review of Economics 11, 685-725.

Breiman, L. (2001). Statistical modeling: The two cultures (with comments and a rejoinder by the author). Statistical Science 16(3), 199-231.

Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium: Empirical tests. Journal of Political Economy 81(3), 607-636.

Kelly, B. T. and D. Xiu (2023). Financial Machine Learning. Foundations and Trends® in Finance 13(3-4), 205-363.

Mullainathan, S. and J. Spiess (2017). Machine learning: An applied econometric approach. Journal of Economic Perspectives 31(2), 87-106.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

合格投资者声明

资产定价中的实证挑战 (III)