因子样本外表现为什么变差？

发布时间：2019-12-12 | 来源: 川总写量化

作者：石川

摘要：摘要：曝光导致错误定价减弱、因子拥挤和交易成本是因子样本外变差的三大原因。

0 引言

因子样本外的表现较样本内变差是人们的共识。这里的因子包括异象（anomalies）和传统意义上的风格 beta 因子，在下文不做区分，统称为因子。造成因子样本内、外表现差异的最主要原因自然是样本内的 data snooping（即因子本来就是假的），但如果因子确实是真实的，那么它们在样本外变差的原因是什么呢？学术界和业界的主要观点包括以下三种：

1. 曝光导致错误定价减弱

2. 因子拥挤

3. 交易成本

在 2019 年 9 月刚刚结束的 Wharton 商学院 Jacobs Levy Center 年会中，一共深入讨论了四篇论文，其中两篇就和因子样本外表现有关，它们分别是 Bowles et al. (2019) 以及 Chen and Velikov (2019)，足见这个话题的重要性。具体来说，Bowles et al. (2019) 以 Anomaly Time 为题从“曝光导致错误定价减弱”的角度谈论了因子的表现；而 Chen and Velikov (2019) 则从“交易成本”的角度指出，在考虑了非常合理的费用之后，绝大多数因子在样本外根本无法赚钱。本文就来简要探讨一下因子样本外表现变差的三个原因。

1 曝光导致错误定价减弱

因子代表着市场某方面的非有效性、代表了某种 mispricing（错误定价）。只要套利限制不是过大，那么聪明的投资者一定会先人一步去交易这个因子，导致错误定价收窄，这就解释了为什么当因子被发表后，它的收益往往也跟着显著下降。在这方面，McLean and Pontiff (2016) 的研究颇具代表性。该文研究了 97 个因子，发现因子样本外的表现比样本内的表现下降了 26%、而发表后（post-publication）的表现较样本内则下降了 58%。McLean and Pontiff (2016) 考虑样本内外差异是为了控制过拟合的影响。上述结果表明，58% 与 26% 之差 —— 即 32% —— 就是发表本身造成因子效果的减弱。McLean and Pontiff (2016) 把它称作 publication-informed trading。这背后的逻辑链是：因子被发表导致它被公布于众 --> 越来越多的人交易该因子从而减弱了错误定价 --> 最终导致因子收益率降低。

如果说 McLean and Pontiff (2016) 检验了因子的平均收益，Bowles et al. (2019) 则是从时效性的角度展示了因子背后的信息越来越快的被 priced in。长久以来，由于 Fama and French (1993) 的影响太过深远，学术界在研究因子的时候为了避免未来数据，通常采用每年再平衡的方法（量价相关的指标通常是月频再平衡），导致构建因子的指标数据严重滞后。这其中最著名的例子要数 Eugene Fama 的弟子 Cliff Asness 使用月频价格对 HML 的改造（Asness and Frazzini 2013）。使用了月频价格数据后的 HML 较 Fama and French (1993) 三因子的 HML 表现更好，说明了数据时效性的重要性。

再来看个更显著的例子。下图显示了 Reliant Energy Inc. 这家公司 2007 和 2008 两年 10-K filing 的时间，以及按学术界传统每年 6 月底再平衡时该公司的股价变化。在 2007 年 10-K filing 到 6 月底这 85 天内，因最新的财报数据，该公司股价上涨 59.09%。如果按照两个 10-K filing 之间来调仓选入该股票，那么在两个披露期之间可以获利 44.63%；而在传统研究框架下，如果在两个 6 月底调仓，选入该股票却亏损 21.08%。

对于使用财务指标构造的因子，学术界之所以使用每年再平衡是因为学术界的重心毕竟是 empirical asset pricing。为了研究成果的可复制性和可比性，大家用的都是同样的数据库、采用同样的再平衡周期，因此也就没有想过要用粒度更细的数据。Bowles et al. (2019) 一文则另辟蹊径，使用 Compustat Snapshot 数据库对因子时效进行了分析。用 Bowles et al. (2019) 自己的话说，Snapshot 在学术界用的很少，但它却是有着粒度最细的数据 —— 细到记录财报中每个单一变量更新的时间：

For each financial statement variable, Snapshot identifies the first date on which each variable was reported.

以美股为例，通常上市公司先有 earnings announcement 然后才有 10-Q 和 10-K filing。而在 earnings announcement 上往往只会公布 total revenue 和 net income 等少许指标，而在正式的 filing 中才披露全部财报内容。在这种情况下，Snapshot 数据库会在 earnings announcement 当日更新 total revenue 和 net income 数据，而等到实际 filing 之后再更新其他数据。因此，使用 Snapshot 数据可以保证在用来计算因子的指标被更新后，第一时间更新因子、进行投资组合的再平衡。

利用 Snapshot 数据，Bowles et al. (2019) 研究了一些常见的源自财务数据的因子，发现绝大多数因子在最新数据更新后的 120 天之内（特别是最初的 30 天内）能够获得显著的超额收益。而在 120 天之后，超额收益消失（下图）。不过，Bowles et al. (2019) 也指出，最近几年的实证结果显示，因子的超额收益消失的更快。基于这些发现，Bowles et al. (2019) 认为因子是真实的（而非 data snooping 出来的），但很快就会因套利交易而消失。

Bowles et al. (2019) 针对美股的研究和前不久天风证券的一篇《和时间赛跑 —— 利用实时财务信息增强组合收益》针对 A 股的报告异曲同工。该研究显示，利用业绩预告和快报能够提升财务信息的时效性，提高财务因子的表现。

2 因子拥挤

造成因子样本外变差的第二个原因是因子拥挤（factor crowding）。通常来说，因子都有周期性。当某类因子好使的时候，就会造成更多的资金引入，从而出现因子拥挤，并降低该因子未来的预期收益率。而 rule-based （使用相似的指标排序、接近的调仓频率）的因子投资无疑加剧了这种负面影响。由于因子拥挤度和因子未来收益率呈现负相关，如何定量计算因子拥挤度就成为人们关注的问题。在这方面，MSCI 整理了相关研究，提出五个描述因子拥挤度的代理指标（Bayraktar et al. 2015，Bonne et al. 2018）。这五个指标是：valuation spread、short Interest spread、pairwise correlation、factor volatility 以及 factor reversal。考虑到由于制度问题，short interest spread 在 A 股上并不适用，下面对其他四个指标做简要介绍。海通证券的报告《因子失效预警：因子拥挤》针对 A 股对上述四个指标进行了分析。

2.1 Valuation Spread

顾名思义，valuation spread（估值价差）考虑的正是因子的估值。关于因子估值在 A 股上的实证，感兴趣的小伙伴请参考《你家因子便宜吗？——基于value spread的因子择时研究》。这背后的逻辑是，当更多资金涌入某个因子时（特别是多头时），会造成受波及股票的价格上涨，使它们的估值变高。因此，因子估值和因子拥挤度成正相关，是一个不错代理指标。估值价差的计算方法十分直观。首先选择一个合适的股票估值指标，比如 B/P，然后分别计算因子多空两头组合中该估值指标的中位数，以此作为多空两头的估值，最后这两个估值差就是因子的估值价差。以 B/P 为例，Bonne et al. (2018) 使用的计算公式为：

2.2 Pairwise Correlation

第二个指标是 Pairwise Correlation（配对相关性）。它是为了从因子投资组合内股票收益率的相关程度来试图揭示资金持仓的集中程度，并以此来评价因子的拥挤程度。为了计算该指标，Bonne et al. (2018) 采用了如下步骤：

1. 将因子多（空）头内的股票做市场、市值等中性化处理，得到残差；

2. 使用 63 个交易日的残差计算每个股票和其所在多、空头内平均残差收益率的相关性。以多头为例，使用多头组合中第 i 支股票的残差收益率和剩余股票残差收益率均值计算相关系数。空头处理相同。

3. 计算多、空两头组内所有股票相关系数的均值；

4. 将多、空两头相关系数均值再取平均，得到该因子 Pairwise Correlation 的原始值，最后再将该值进行标准化就得到最终该因子的 Pairwise Correlation。

2.3 Factor Volatility

由于资金的流入会加剧因子收益率的波动，因此 Bonne et al. (2018) 从这个角度提出了衡量因子拥挤度的第三个指标：Factor Volatility（因子波动率）。值得一提的是，Bonne et al. (2018) 使用的是预测的未来因子波动率相对未来市场波动率的比值来计算该指标。他们认为这么做可以有效的控制市场波动率变化造成的影响。在实际操作中，一个简化的处理方法是使用因子的历史波动率。

2.4 Factor Reversal

最后一个指标是 Factor Reversal（因子反转）。De Bondt and Thaler (1985) 这篇著名的论文表明美股在 3 到 5 年的中长期尺度上存在反转。由于因子是股票构成的投资组合，因此我们可以自然的从股票的反转延伸出因子的反转。Bonne et al. (2018) 使用因子过去三年的累积收益率计算该指标。

以前文提到的《因子失效预警：因子拥挤》研究结果为例，下图展示了估值价差和因子反转两个因子拥挤度指标和 A 股上一些常见因子未来收益率的关系（之所以没有放另外两个指标的结果是因为报告中的计算方法和 Bonne et al. 2018 的方法差异较大；方法并无优劣之分，但因实证结果并不直接对应前文介绍的方法，故略去）。图中结果显示，对其中大部分因子，这两个指标和因子未来收益率成负相关，说明该因子拥挤会造成因子表现变差。

最后，因子拥挤也会引发流动性冲击。一旦市场中发生冲击因子的事件后，持有相似头寸的管理人会竞相卖出手中的股票，由此产生的流动性危机会造成很大的亏损。2007 年 8 月，美股市场上一些非常优秀的量化对冲基金在短时间内录得了巨大的亏损。Khandani and Lo (2011) 对此进行了研究并发现，很多基金经理在短时间内清理了相似的头寸，巨大的抛压对流动性造成了巨大的打击、使得这些股票的价格在短时间内大幅下跌。

3 交易成本

交易成本是因子在样本外的效果较样本内显著变差的第三个原因。学术论文通常不会对交易费用给予充分的考虑，这会造成对因子收益率的高估。此外，由于因子投资组合一般都是多、空对冲的组合，如果不合理考虑做空限制，也会高估因子的收益。Novy-Marx and Velikov (2015) 研究了交易费用对因子效果的影响，并提出三个思路降低交易成本：（1）仅使用交易费用低的股票构建因子组合；（2）降低因子组合再平衡的频率；（3）在交易时考虑更严格的买卖价差约束。在 Chen and Velikov (2019) 一文中，二位作者使用 effective spread（有效价差）的概念代替传统的 bid-ask spread，对多达 120 种因子进行了研究。他们的研究发现 …… 哎，先上图吧。

上图中，蓝色的 bar 代表着 120 个因子样本内的平均 gross 收益率（不考虑任何交易成本）；黄色 bar 为这些因子在发表后的平均 gross 收益率；红色 bar 为考虑了交易成本后，这些因子的平均收益率 —— 负的。来看下具体研究方法。Chen and Velikov (2019) 对 effective spread 的定义为：

为了考虑交易成本，他们假设每次调仓时的交易费用为上述 effective spread 的一半。从上述定义不难看出，因子的费后 net return 和换手率以及换仓时的 effective spread 息息相关：

有必要指出的是，Chen and Velikov (2019) 的研究仅考虑交易费用，并不考虑任何冲击成本。这意味着考虑了冲击成本后，因子样本外的 net return 只能更惨。下表显示了在考虑了成本后，120 个因子在样本内、外的收益情况（括号中为标准差）。结果显示，考虑成本后，即便是样本内，这些因子的月均收益仅有 0.05%，而样本外的收益更是小于零。

下图展示了样本外，这 120 个因子的 net returns 的分布。这些 net returns 经过了一定的交易优化处理，有效降低了换手率和交易成本，因此整体来看所有因子的 net return 均值是大于零的，而非上表中 -0.03% 那么惨。

这个分布看上去像是一个均值接近零的正态分布，和随机因子的表现并无太大差异（即如果我们使用完全随机生成的 120 个因子，其中也总会有一些是“显著”的）。由于发表的因子都多少存在 selection bias，因此面对上述结果，Chen and Velikov (2019) 不禁发问：排除运气后，还有多少因子是显著的？为了回答上述问题，他们采用了 empirical Bayes 方法对 selection bias 进行修正。Chen and Velikov (2019) 假设因子 i 在被发表后的样本平均收益率 \bar r_i 由真实 μ_i 和噪音 ε_i 决定：

其中 ε_i 满足正态分布 N(0, SE_i)，这里 SE_i 是 \bar r_i 的 standard error。Chen and Velikov (2019) 进一步假设所有因子 net return 的真实均值 μ_i 都满足如下正态分布：

Chen and Velikov (2019) 采用 method of moments 对参数 μ_μ 和 σ_μ 进行估计：

上式说明 \hat μ_μ 是所有因子平均收益率的截面均值。看到这里，似乎还没见 Bayes 的影子。别着急，有了 \bar r_i 和 μ_μ 的估计，接下来马上就要贝叶斯收缩（Bayes shrinkage）了：

上式中 s_i 是收缩系数，它由 \bar r_i 的 standard error（SE_i）和 μ_μ 的标准差 σ_μ 的相对大小决定：

结合 s_i 的定义不难看出，如果 SE_i 小说明 \bar r_i 可信，则收缩后的因子 i 的收益率由其主宰；如果 SE_i 相对 σ_μ 很大就说明 \bar r_i 不靠谱，则因子 i 的收益率由全部 120 个因子的截面均值主宰。经如此调整后，Chen and Velikov (2019) 得到了如下结果。

排除 selection bias 之后，即便是最好的因子（top 5%），被发表后月均 net return 仅有 0.21% —— 这还是在允许等权构建因子的前提下。当使用市值加权时，该数值降低至 0.07%。基于以上结果，Chen and Velikov (2019) 认为考虑了合理的交易成本后，绝大多数因子在样本外都无法获利。不要忘记，以上结果还是基于对交易进行了优化后的结果。

Average investors should expect only tiny profits from selected, cost-mitigated anomaly strategies.

4 结语

由于曝光导致错误定价减弱、因子拥挤以及交易成本等原因，因子样本外表现变差是因子投资中必须面对的问题。这也催生了业界对因子择时的极大兴趣，并尝试使用各种手段持续挖新的因子（新的因子意味着曝光少、拥挤度低）。Arnott et al. (2019) 一文也严肃讨论了投资人在因子投资中常犯的三大错误，第一条就是对样本内的表现非理性外推，造成对因子样本外的表现缺乏理性预期。另外，当因子表现变差时，人们由此想到的另一个问题是因子是否会失效。对此，我们认为如果因子背后的原因是风险补偿或者错误定价，那么还是有理由相信因子长期来看会有效的。在这方面，Asness (2015) 有过精彩的讨论。该文认为诸如 value、momentum、carry 等因子在长期来看会持续有效。这背后的原因主要包括：

1. 从风险的角度来看，因子承担了某些不可预知的风险，需要得到相应的补偿。只要风险是真实存在的，承担这种风险长期就会得到回报。

2. 从行为金融学的角度来看，投资者认知偏差和信息传播速度等因素可以导致股票的价格偏离内在价值。只要投资者“动物精神”不消失，那么错误定价就会一直存在，就给了使用因子获取收益的机会。

最后，还有一个事实也不得不提：很多人知道了一个因子，并不代表他会利用这个因子，也并不代表他无条件的信任这个因子，更不代表他会坚定不移的使用这个因子。知道并不意味着懂，懂并不意味着会用，会用也并不意味着始终如一。因此，有充分先验依据的因子的长期表现依然值得期待。

参考文献

Arnott, R., C. R. Harvey, V. Kalesnik, and J. Linnainmaa (2019). Alice's adventures in factorland: Three blunders that plague factor investing. The Journal of Portfolio Management 45(4), 18 – 36.

Asness, C. S. (2015). How can a strategy still work if everyone knows about it? AQR Research Insight.

Asness, C. S. and A. Frazzini (2013). The devil in HML's details. The Journal of Portfolio Management 39(4), 49 – 68.

Bayraktar, M., S. Doole, A. Kassam, and S. Radchenko (2015). Lost in the crowd? Identifying and measuring crowded strategies and trades. MSCI Research Insight.

Bonne, G., L. Roisenberg, R. Kouzmenko, and P. Zangari (2018). MSCI integrated factor crowding model. MSCI Research Insight.

Bowles, B., A. V. Reed, M. Ringgenberg, and J. R. Thornock (2019). Anomaly time. SSRN Working Paper.

Chen, A. Y. and M. Velikov (2019). Accounting for anomaly zoo: A trading cost perspective. SSRN Working Paper.

De Bondt, W. M. and R. H. Thaler (1985). Does the stock market overreact? Journal of Finance 40(3), 793 – 805.

Fama, E. F. and K. R. French (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics 33(1), 3 – 56.

Khandani, A. E. and A. W. Lo (2011). What happened to the quants in August 2007? Evidence from factors and transactions data. Journal of Financial Markets 14(1), 1 – 46.

McLean, R.D. and J. Pontiff (2016). Does academic research destroy stock return predictability? Journal of Finance 71(1), 5 – 32.

Novy-Marx, R. and M. Velikov (2015). A taxonomy of anomalies and their trading costs. Review of Financial Studies 29(1), 104 – 147.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

合格投资者声明

因子样本外表现为什么变差？