残差动量 —— 有理有据还是数据挖掘？

发布时间：2019-12-04 | 来源: 川总写量化

作者：BetaPlus 小组（石川，刘洋溢，刀疤连）

摘要：与传统动量不同，残差动量在 A 股效果显著。但这背后是有理有据还是数据挖掘？

1 引言

动量，更确切地说是 Jegadeesh and Titman (1993) 提出的截面相对强弱，一直以来是美股生命力最旺盛的异象之一。无论是 Fama and French (1993) 三因子模型还是 Fama and French (2015) 五因子模型均无法解释动量策略（Blitz et al. 2018），因此 Eugene Fama 也不得不承认它是最显著的异象。

在美股上，动量策略虽然长期来看很不错，但这种做多前期 Winner 做空前期 Loser 的对冲组合却时不时会来个 crash，俗称动量崩溃（momentum crash），即动量策略会遭遇不多但持续时间长、幅度大的下跌。学术界的研究认为这和该组合的动态风险敞口有关。Geczy and Samonov (2013) 基于超长的美国股市数据指出，动量效应对于市场组合有着动态的暴露，具体敞口则取决于市场状态。当市场从一种状态转换到另一种状态的初期，动量组合对于最新市场状态有着负的暴露，从而导致市场转换期的大幅损失。Daniel and Moskowitz (2016) 发现动量崩溃与该策略的尾部风险有关。崩溃往往发生在市场恐慌时，此时资产价格大跌而波动率大幅上升，这与 Geczy and Samonov (2013) 的发现一致。

为了改善动量策略的极端表现，2011 年来自 Robeco 的 David Blitz 领衔发表了 Blitz, Huij, and Martens (2011) 一文，提出了残差动量（residual momentum）策略。该策略使用股票相对于 Fama and French (1993) 三因子模型的残差收益率，经残差波动率调整后计算了残差动量（因此也被称为异质动量，idiosyncratic momentum）。Blitz, Huij, and Martens (2011) 的实证结果显示，该策略比传统动量策略能够获得更高的风险收益比。除此之外，Hanauer and Windmueller (2019) 指出残差动量在传动动量 crash 的时期表现更好，能够极大降低亏损。

尽管动量策略在美股呼风唤雨，但是它到了 A 股中似乎画风一变、难有作为。那么，残差动量又如何呢？Lin (2019) 一文使用 Blitz, Huij, and Martens (2011) 的思路在 A 股上实证了残差动量策略，得出了惊人的效果（下图）。

怎么样？多、空对冲得到的残差动量（红线）累积收益率稳健上行（Panel A），滚动三年窗口的夏普率（Panel B）在整个实证窗口内均为正，且在很高的比例下在 1.0 以上，这种表现让多少风格因子汗颜？

坦白说，我们第一眼看到这个结果是不信的。再加上 Finance Research Letters 这个期刊的口碑也不是太过硬，更令人增加了几分怀疑。残差动量的计算方法是否合理，即其背后到底代表了什么原因？A 股市场上的残差动量是否真的有如此惊人的表现？带着这些问题，本期 BetaPlus 小组就来对残差动量进行深度实证。

先来看看 Blitz, Huij, and Martens (2011) 提出的残差动量计算方法。

2 有理有据？

Blitz, Huij, and Martens (2011) 使用 Fama and French (1993) 三因子模型为基准，使用股票月频超额收益和三因子月频收益率数据构建时序回归模型：

上式中，r_{i, t} 为股票 i 在第 t 月相对无风险利率的超额收益，α_i 表示三因子模型无法解释的 abnormal return，ε_{i, t} 表示残差。在每个 T 月初，Blitz, Huij, and Martens (2011) 构建残差动量的方法包括以下几步：

1. 使用过去 36 个月的收益率数据进行上述时序回归，得到参数估计和残差 ε_{i, t} 序列；

2. 在上述回归得到的 36 的 ε_{i, t} 中，仅使用 T – 12 到 T – 2 这 11 个月的残差项 ε_{i, t}，计算这些残差项的收益率之和；之所以舍弃最近一个月，即 T – 1 月的收益率，是类比常规动量策略对最近一个月短期反转的规避；

3. 同样的，使用 T – 12 到 T – 2 的这 11 个残差项 ε_{i, t}，计算它们的标准差（也就是常说的残差波动率）；将第二项的残差总收益率除以残差波动率进行标准化，就得到了最终标准化后的残差动量；通过做多残差动量最高的 10% 并同时做空残差动量最低的 10% 就构建了残差动量因子组合。

有意思的是，Blitz, Huij, and Martens (2011) 一文仅是使用文字描述了残差动量的计算方法，但并没有给出任何一目了然的公式。不过最近的 Blitz, Hanauer, and Vidojevic (2018) 一文给出了明确的公式：

值得一提的是，该公式的分母中，根号内的部分较常见的方差公式差 1/11 这个系数。但由于它不改变残差动量排名的单调性，因此上式等价于残差总收益被残差波动率进行标准化。BetaPlus 小组就计算残差动量的三个步骤有以下四点疑问。

首先，在时序回归时，Blitz, Huij, and Martens (2011) 考虑了截距项 α_i，但是并没有把它作为异质动量的一部分。如果仅从“残差”动量这个名字来看，似乎使用回归方程的残差计算无可厚非；但如果抛开新的动量因子叫什么，α_i 毫无疑问属于收益率中无法被三因子模型解释的部分。Blitz, Huij, and Martens (2011) 给出的理由是，α_i 的作用是控制模型设定偏误，这个解释似乎是合理的。

其次，在 Blitz, Huij, and Martens (2011) 的方法中，用来计算每个 T 时刻残差动量的残差来自同一个时序回归：使用 36 期月频收益率回归，但只选择了 T – 12 到 T – 2 这 11 个点计算非标准化之前的残差动量。从 OLS 回归隐含的假设来说，残差时间序列应该满足平稳性，且由于回归中考虑了截距项，因此这 36 个残差项的均值严格等于零。因此，从数学上说这 36 个残差项是一个均值为零的平稳序列，而 T – 12 到 T – 2 中间的 11 个点仅仅是这个平稳序列中的一部分。无论这部分的均值是否大于零，它的大小为什么会和该股票未来收益率正相关，而非仅仅是个随机扰动呢（它们仅是一个均值为零的平稳序列中的一部分）？此外，为什么不同股票中，不同平稳残差序列在同一段时期的残差和大小能够预示它们未来预期收益率的差异呢？Blitz, Huij, and Martens (2011) 一文对这些问题并未给出太多的讨论。

从上面的说明中可以引出第三点疑问。如前所述，Blitz, Huij, and Martens (2011) 在每个月初 T 使用最近 36 个月进行一次回归得到 36 个残差，并使用其中的 11 个计算残差动量，因此这 11 个残差来自同一个回归（如下图）。

与上述方法相对应的，可以考虑计算残差动量的残差来自 11 个不同的回归。比如，对于 T 期，使用 T – 37 到 T – 2 这 36 个月的数据回归，并仅记录 T – 2 的残差，记为 ε_{i, T-2}^(1)，上标 (1) 代表第 1 次回归；然后使用 T – 38 到 T – 3 这 36 个月的数据回归，并仅记录 T – 3 的残差 ε_{i, T-3}^(2)；以此类推，最终使用 T – 47 到 T – 12 这 36 个月的数据回归，并仅记录 T – 12 的残差 ε_{i, T-12}^(11)。使用上述来自 11 个回归的残差计算残差收益率。

虽然第二种方法听上去有些怪怪的，也不如 Blitz, Huij, and Martens (2011) 的方法易于理解，但学术界对它也有一定的研究。比如 Gutierrez and Prinsky (2007) 就使用这种方法研究了异质动量。因此，单一回归和多个回归计算残差动量有什么区别就是我们的第三个疑问。本文的实证中将会考虑这两种方法。

最后一点疑问是在计算残差动量时，是否有必要使用残差标准差作为分母，对残差动量进行标准化。对于这个操作，Blitz, Huij, and Martens (2011) 引用 Gutierrez and Prinsky (2007) 的研究指出上述标准化可以降低残差的噪声，得到更加纯净的异质动量，提高残差动量的效果。Blitz, Hanauer, and Vidojevic (2018) 的后续研究强调说无论是否标准化，残差动量本身都可以获得显著的超额收益率。

关于这一点，BetaPlus 小组关注的重点是这波操作在 A 股上是否会“夸大”残差动量的效果。上述标准化将残差标准差作为分母，这意味着当分子上的残差动量相同的情况下，标准化可以起到高配低异质波动、低配高异质波动的情况。BetaPlus 小组之前的研究《异质波动率之谜》指出，低异质波动率现象确实存在于 A 股市场，说明如此标准化肯定有助于加强残差动量。因此，如果按照 Blitz, Huij, and Martens (2011) 的方法计算的残差动量在 A 股上有效，那么它到底因为分子的部分、分母的部分、还是两部分均有贡献？这就成为必须回答的问题。在接下来的实证中也将会把这两部分拆开来看。

3 实证

本节和下一节针对 A 股进行实证分析。本节的重点是比较单一回归（Blitz, Huij, and Martens 2011 的方法）和多次回归计算残差动量这两种方法。下一节将会把残差波动率的影响剥离开分析。在以下的分析中，实证期为 1999 年 1 月 1 日至 2019 年 9 月 30 日；在每月末构建投资组合的时候剔除掉次新股、停牌股、风险警示股、一字涨跌停股；同时考虑等权和市值加权两种情况。在计算残差收益率时，采用 BetaPlus 小组维护的以月频进行再平衡灵活版 Fama and French (1993) 三因子模型。首先来看按照 Blitz, Huij, and Martens (2011) 的方法计算残差动量的结果；结果以 portfolio test result 的方式呈现。下图 1 — 3 显示了这 10 组（第 0 组为残差动量最低；第 9 组为残差动量最高组）以及残差动量因子（即第 9 组减去第 0 组）的累积收益率和风险收益特征，其中 Panel A 为等权、Panel B 为市值加权。

上述结果显示，无论是等权还是市值加权，在 A 股上均可以观察到显著的残差动量效应（虽然本文的实证结果并没有 Lin 2019 中的惊艳，该文仅考虑了等权的情况）。在等权下，残差动量因子的夏普率高达 0.78，其最大回撤为 -25.35%，有效抵御了 momentum crash 风险。当采用市值加权时，残差动量效果有所减弱，但依然显著。这样的结果和传统截面动量因子在 A 股上的效果截然不同。当然，面对这样的结果，我们仍然不知道到底是作为分母的残差波动率贡献了多少，该问题将在第四节研究。下面再来看看第二种方法，即采用 11 个回归计算残差收益率、再计算残差动量的结果。下图 4 — 6 显示了相应的 portfolio sort test 结果。

当采用 11 个不同的回归时，残差动量的效果较前一种方法变差。无论是等权还是市值加权，残差动量因子在 2007 到 2009 年间都经历了长时间且大幅度的回撤。除此之外，这十个 portfolios 的单调性也变差。我们对此的猜想是，使用 11 个不同的回归计算残差收益率这种方法额外引入了不必要的不对称性，即不同时期的残差来自不同的分布。由于残差动量的计算高度依赖参数估计的准确性，长期来看这种方法的不稳定性更高。

需要强调的是，虽然第二种方法不如 Blitz, Huij, and Martens (2011) 的方法，但这种结果上的差异仍然没有回答上一节关于残差动量计算方法的两个问题：（1）为什么均值为零的平稳序列中的一部分和未来收益率正相关；（2）为什么这部分残差能够解释预期收益率的截面差异。

4 进一步实证

第三节的实证结果显示经标准化后的残差动量在 A 股是有效的。本小节的实证就来回答第二个问题：残差波动率在这方面是否起到了显著的作用？为了控制残差波动率（即作为分母的残差标准差）的影响，本文采用 double dependent sort 进行分析。首先按照残差波动率（记为 ivol）从低到高把所有股票分成五组，然后再把每组内的股票按照原始残差动量（记为 imom）高低分成五组。这样一共得到 25 个投资组合，以考察每个 ivol 组内原始残差动量是否能够解释股票的预期收益率差异。图 7、8 分别显示了等权和市值加权下，这 25 个投资组合的年化收益率。

从图 7、8 的结果中可以观察到以下几点：

1. 在控制了 ivol 之后，每组内的 imom 基本上依然单调，呈现高 imom 比低 imom 组的预期收益率更高的现象，说明原始残差动量就是有效的。

2. 在低 ivol 组内，各 imom 组的收益率比其在高 ivol 组内的对应的 imom 组的收益率更高。

3. 从头（imom4）尾（imom0）两组的区分度来说，imom4 – imom0 的收益率在五个 ivol 组内呈现出倒 U 形，意味着无论是低波动组还是高波动组，imom 对于截面预期收益率差异的解释都不如在中等 ivol 组内更好。我们对此的猜想是，在高波动组中噪音更高，且 OLS 回归系数的标准误和残差标准差成正比，因此参数估计的误差也更高，这些都对准确计算残差动量有影响；而在低波动组中，残差所代表的和定价有关的信息可能已经反映在了其他风格因子上，从而降低了它的解释能力。

4. 无论是等权还是市值加权，均能观察到上述几点；市值加权较等权的平均收益更低。

经过以上的分析，我们可以说基于 Blitz, Huij, and Martens (2011) 定义的残差动量在 A 股有效，并非依靠了低异质波动率的原因，作为分子的原始残差动量在没有被标准化的情况下依然能获得显著的超额收益。事实上，作为 robustness check，我们也仅使用原始残差动量（即未经残差波动率标准化）构建了残差动量因子，实证结果显示它在 A 股上的效果甚至超过了经标准化的版本（等权时，未经标准化的残差动量因子夏普率为 .82，高于经标准化后的 .78；市值加权时，前者的夏普率为 .59，高于后者的 .58）。这样的结果似乎足以令人兴奋了。但是，我们还想抛出一个问号，并以此总结全文。

5 结语：问题比发现更多

毫无疑问，残差动量 —— 无论其背后的“故事”是什么 —— 其有效的必要条件是有一个靠谱的定价模型。虽然美股上已经有很多主流的多因子模型，但是针对 A 股却并没有广泛被认可的定价模型。这让任何研究残差收益率的实证结果都面临挑战。在计算残差动量的时候，Blitz, Huij, and Martens (2011) 以控制模型设定偏误为由舍去了回归中的 α_i。面对这种处理，我们仍然很好奇，如果带上 α_i 又会怎样？从 A 股上的实证结果来看，带上 α_i 之后，残差动量翻车了……仍然以 Blitz, Huij, and Martens (2011) 的方法获得残差收益率，在计算残差动量时，使用 T – 12 到 T – 2 期之间的 α_i 和残差总收益之和作为分子：

以等权为例，在上述定义下，残差动量变成了残差反转（图 9）。除此之外，我们也尝试了在时序回归计算残差收益率时不加入截距项，也得到了残差反转的结果。

作为开放性的问题，本文并不试图对上述看起来十分矛盾的结果进行更深入的讨论。只是希望通过它们说明，在使用残差收益率构建因子的时候，模型怎么设定、参数如何估计都会直接影响因子的计算，且有时甚至产生完全相反的效果，因此必须要搞清楚每一步的原因是什么，以免陷入数据挖掘。

前文《给你的动量策略加点“料”》曾指出，传统动量策略之所以有效和人们的有限注意力（limited attention）有关，并以此作为一个维度改进了传统动量。由于大脑中的资源有限，一系列频繁但微小的变化对于人的吸引力远不如少数却显著的变化；因此投资者对于连续信息造成的股价变化反应不足。随着时间的推移，这些信息缓慢的被吸收并反映到价格中，从而导致了动量。而对于残差动量，Blitz, Huij, and Martens (2011) 认为也可以从 gradual-information-diffusion 假说解释：信息在投资者之间的扩散是缓慢的，而且相比于影响所有公司的公共事件，投资者对于那些针对公司的特定事件的反应则更加迟缓，这就形成了残差动量。

从投资者的反应不足来解释动量和残差动量似乎是站的住脚的。而对于美股市场，动量和残差动量双双有效，且残差动量的效果优于传统动量这个结果也是可以支持上述假说的。但是 A 股……在动量如此不好使的前提下，仅仅使用了一个同样对于 A 股也不那么完美的定价模型计算出残差，就得到了如此好使的残差动量。这背后的原因恐怕比残差动量这个简单的公式要复杂得多。

参考文献

Blitz, D., M. X. Hanauer, and M. Vidojevic (2018). The idiosyncratic momentum anomaly. SSRN 2947044.

Blitz, D., M. X. Hanauer, M. Vidojevic, and P. van Vliet (2018). Five concerns with the five-factor model. The Journal of Portfolio Management 44(4), 71 – 78.

Blitz, D., J. Huij, and M. Martens (2011). Residual momentum. Journal of Empirical Finance 18(3), 506 – 521.

Daniel, K. and T. J. Moskowitz (2016). Momentum crashes. Journal of Financial Economics 122(2), 221 – 247.

Fama, E. F. and K. R. French (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics 33(1), 3 – 56.

Fama, E. F. and K. R. French (2015). A five-factor asset pricing model. Journal of Financial Economics 116(1), 1 – 22.

Geczy, C. and M. Samonov (2016). Two centuries of price-return momentum. Financial Analysts Journal 72(5), 32 – 56.

Gutierrez, R. C. and C. A. Prinsky (2007). Momentum, reversal, and the trading behaviors of institutions. Journal of Financial Markets 10(1), 48 – 75.

Hanauer, M. X. and S. Windmueller (2019). Enhanced momentum strategies. SSRN 2427919.

Jegadeesh, N. and S. Titman (1993). Returns to Buying Winners and Selling Losers: Implications for Stock Market Efficiency. Journal of Finance 48(1), 65 – 91.

Lin, Q. (2019). Residual momentum and the cross-section of stock returns: Chinese evidence. Finance Research Letters 29, 206 – 215.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

合格投资者声明

残差动量 —— 有理有据还是数据挖掘？