[置顶] 统一视角下的因子投资

发布时间：2020-09-07 | 来源: 川总写量化

作者：石川

摘要：研究因子投资的统一视角。

0 引言

因子投资涵盖的内容包罗万象。有人用因子来获取收益，也有人用因子来控制风险；有人用因子进行被动的资产配置，也有人用因子博取主动的套利收益；有人用因子研究预期收益率，也有人用因子研究收益率的波动……这些差异性的使用方式足以把刚接触因子投资的人搞得晕头转向。如果将“什么是因子投资”这个问题抛给从事因子投资的人，一千个人也可能给出一千种答案。因子投资涉及的内容虽然看似纷繁，但它们其实非常协调地构成了一个有机的整体。如何站在一个统一视角下探讨因子投资的方方面面呢？

1 一个公式

20 世纪 60 年代，资本资产定价模型（Capital Asset Pricing Model，即 CAPM）问世，首次清晰地描绘出风险和收益率之间的关系。根据 CAPM 理论，资产的预期超额收益由下面这个一元线性模型决定：

其中 E[.] 是期望符号，R_i 为某资产 i 的收益率，R_f 为无风险收益率，R_M 为市场组合的收益率。式中 β_i = cov(R_i, R_M)/var(R_M) 刻画了该资产收益对市场收益的敏感程度，它也被称为资产 i 对市场风险的暴露程度。CAPM 正是最简单的线性因子模型，它指出资产的预期超额收益率由市场组合的预期超额收益率和资产对市场风险的暴露大小决定，而市场组合也被称为市场因子。

公式 (1) 这个简单的关系为后续大量线性多因子定价模型的研究拉开了序幕。人们发现不同资产的收益率并非由单一的市场因子决定，而是同时受到其他因子的影响。以此为契机，Ross (1976) 提出了著名的套利定价理论（Arbitrage Pricing Theory，简称 APT），在 CAPM 的基础上做了进一步延伸，构建了线性多因子定价模型（简称多因子模型）。多因子模型假设资产 i 的预期超额收益由以下多元线性模型决定：

其中 E[R_i^e] 表示资产 i 的预期超额收益，β_i 是资产 i 的因子暴露（factor exposure）或称因子载荷（factor loading），λ 是因子预期收益（factor expected return）、也常被称为因子溢价（factor risk premium）。式 (2) 中引入符号 E[R_i^e] 代表预期超额收益而舍弃了 E[R_i] - R_f，原因如下。对于个股或者由若干支股票组成的纯多头投资组合这类资产，它的预期超额收益是 E[R_i] 和无风险收益率 R_f 之差，即 E[R_i] - R_f。在实证资产定价中，另一类常见的资产是通过多空对冲构建的资金中性投资组合，例如做多一定金额的股票、同时做空同样金额的股票。依照定义，这类资产的预期超额收益率就是多头和空头预期收益之差，无需额外减去无风险收益率。因此，使用 E[R_i^e] 代表资产的预期超额收益更具一般性。

和 CAPM 类似，多因子模型假设 E[R_i^e] 由 (2) 式右侧的一系列因子的预期收益率和资产在这些因子上的暴露决定。它表明多因子模型研究的是不同资产预期收益率之间的差异，而非单一资产收益率在时序上的变化。在多因子模型研究的术语中，不同资产预期收益率的差异通常被称为（横）截面（cross-sectional）差异，资产预期收益率的高低由它在这些因子上的暴露 β_i 大小决定。

多因子模型在数学上简单、优雅，它允许人们在公式 (2) 的右侧加上任何可能影响资产预期收益率的因子。然而，实际的金融市场十分复杂，影响资产收益率的原因层出不穷又千变万化。因此，虽然 (2) 给出了市场均衡状态下资产的预期收益率，但在实际中其左、右两侧往往并不相等，而是存在一个定价误差（pricing error）：

上式中 α_i 是资产 i 的实际预期收益率和多因子模型隐含的预期收益率之间的定价误差。该误差背后的原因可以从以下两方面来考虑：

1. 模型设定偏误，即公式 (2) 右侧遗漏了重要的因子。当被遗漏的因子被加入后，即可消除误差。

2. 模型本身没有问题，但由于资产收益率的实际数据仅仅是总体的一个样本，因此误差总是存在的。这时需要通过统计方法检验误差 α_i 是否显著不为零：

2.1 如果 α_i 并非显著的偏离零，那么可以认为它的出现仅仅是因为运气的原因；

2.2 如果 α_i 显著偏离零，它则代表了某个可以通过套利而获得超额收益的机会；它也同时说明由于某些原因，市场对该资产出现错误定价（mispricing），从而导致其实际预期收益率和模型下的预期收益率出现了偏离。

如何选择因子来构建多因子模型，如何计算资产在因子上的暴露以及因子的收益率，如何使用统计学的方法对定价误差 α_i 进行正式检验就成为了使用多因子模型研究资产定价时必须回答的问题。而多因子模型一经提出，用来回答上述问题的相关理论也得到了迅速的发展。如今多因子模型早已成为实证资产定价（empirical asset pricing）研究的最主要方法，也由此在投资实务中催生了一个全新的类别 —— 因子投资（factor investing）。

作为当今一个重要的投资类别，因子投资中涉及的内容非常丰富，但所有的方面都可以围绕公式 (3) 来展开和讨论，形成关于因子投资的统一视角。

2 因子、多因子模型、异象

下图展示了 (3) 中的三个成分。在多因子模型中，β'_iλ 中包含了多个影响 (3) 左侧资产收益率的解释变量，每个解释变量代表了一个因子。多个因子的预期收益率以及资产在它们上的暴露放在一起构成的 β'_iλ 就是多因子模型。对于某个给定的资产 i，如果它的实际预期收益率和多因子模型隐含的预期收益率之间的误差 α_i 显著不为零，则称这个资产为一个异象（anomaly）。

因子投资中最重要自然是因子。那么，因子到底是什么？如何选择因子？由 (3) 可知，它左侧不同资产的收益率均可以归结到有限个因子的收益率上，而不同资产预期收益率的高低由它们对因子的暴露大小决定。由此可以得出因子的定义：

因子描述了众多资产共同暴露于的某种系统性风险，该风险是资产收益率背后的驱动力；因子收益率正是这种系统性风险的风险溢价或风险补偿，它是这些资产的共性收益。

下面通过一个来自 Ang (2014) 的类比加深对上述定义的理解。Ang (2014) 将因子之于资产类比于营养之于食物。人们的日常生活离不开摄入各种食物，比如米饭、谷物、肉类和乳制品等。这些食物之所以对人体重要是因为它们所包含的营养成分，例如水，碳水化合物，蛋白质，纤维和脂肪等。这些营养成分就是食物的“因子”。

每种食物对人体的价值体现在两方面：（1）它包含哪些营养成分以及包含了多少（类比多因子模型中的 β_i）；（2）该食品包含的每种营养成分对人体健康的重要性（类比多因子模型中的 λ）。因此，虽然食物种类五花八门，但归根结底它们都可以归结为不同营养成分的组合；同理，虽然股票资产成百上千，但归根结底它们都可以归结为不同因子的组合。这就是因子的作用和多因子模型的价值。

从上述定义可以总结出因子需要满足的两个必要条件：（1）因子驱动了资产收益率的共同运动（co-movement），因此因子一定和资产收益率的协方差矩阵有关；（2）长期来看因子是可以获得正收益的，这意味着因子必须是被定价的。明确了因子的定义，下面再来看看什么是多因子模型。

把若干个因子放在一起使用就构成了一个多因子模型。通常来说，人们总可以找到非常多的能够解释资产预期收益率截面差异的因子，但无论是学术理论还是投资实践都表明并不应该把所有的因子都放到一个多因子模型里。如何确定一个多因子模型中到底有几个以及哪些因子，可以从以下两点考虑。

首先，很多因子之间都存在一定的相关性，高度相关的因子代表的是资产收益率所暴露的同一类风险。在选择模型包括的因子时，必须要考虑相关性的影响，人们希望加入模型的因子是相互独立的、每个因子都能对解释资产预期收益率截面差异有显著的增量贡献。第二个考虑是简约法则。从定义出发，每个因子代表的是资产暴露的某种共性风险。因此从常识来说，多因子模型中因子的个数一定是有限的。学术界的主流多因子模型通常包括 3 到 5 个因子。

最后来看异象。在选定了多因子模型后，如果某个资产的预期收益率中存在一部分无法被多因子模型解释，且这部分显著大于零，那么该资产就是一个异象。举个例子，在股票市场中，人们经常根据某个公司财务指标或者量价指标来把股票排序，并按照排序高低构建一个多、空对冲投资组合。将该投资组合作为一个资产放在多因子模型中，如果其 α_i 显著大于零，那么就称该投资组合就是一个异象，而构建该组合的指标就被称为异象变量（anomaly variable）。

3 因子投资包含的内容

因子投资的内容可以因研究的对象是公式 (3) 右侧的 β'_iλ 或 α_i 而分成两大类。每一大类下又可以因站在学术界和业界的不同立场再进一步划分。按照重要性的先后顺序，首先来看 β'_iλ 这部分。

1. 关注 β'_iλ 的研究

在这方面，学术界关注的是找到“最好的”多因子模型 ——“最好的”通常意味着在该模型下资产的 α_i 尽可能接近零，即该模型无法解释的异象越少越好。以此为目标，学术界在过去 30 年针对股票市场推出了很多经典的多因子模型（见此链接）。

在提出每个多因子模型的同时，学术界也格外关注每个因子背后的原因。即便到了今天，因子背后的原因也仍然是研究的热点之一。经过几十年的发展，学术界也发明出很多计量经济学的方法，它们可以计算因子暴露、因子收益率并对多因子模型进行假设检验。除此之外，学术界研究 β'_iλ 的另一个重点是对主动基金管理人的业绩进行归因。大量的实证数据研究表明，在选择了适当的多因子模型后，美股市场上绝大多数主动基金管理人并不能获得超额收益。

与学术界不同，业界进行因子投资最重要的目标是使用因子来获取超过基准的收益。因此业界从资产配置的角度聚焦于找到长期来看有风险溢价的因子，并以尽可能高的暴露配置在这些因子上。仍然以 Ang (2014) 中食物和营养的类比做解释。人们每天摄入不同的食品，其本质是为了吸收食品背后的营养成分，这些食品只是获得营养的渠道。人们想要保持健康则需要这些营养成分均衡的搭配。

回到因子投资中，业界关心如何以资产为媒介配置在不同的因子上，并在分散化的前提下最大化在不同因子上的暴露，从而获得稳健的（超额）收益。除此之外，随着因子投资的发展，很多 Smart Beta ETF 金融产品相继问世，极大丰富了资产配置的工具。

2. 关注 α_i 的研究

再来看 α_i 部分。α_i 代表了可以通过套利获得的超额收益。出于截然不同的原因，学术界和业界都对它非常感兴趣。先说学术界，从有效市场假说（Efficient-Market Hypothesis，出自 Fama 1970）的观点出发，如果多因子模型不存在模型设定偏误，那么市场中不应该存在太多异象。因此，一旦一个异象被发现，就会被拿来评判市场并非有效，或用来描述市场均衡状态的因子模型有误，这是学术界研究异象的主要动机。另一方面，解释异象的能力是评价多因子模型优劣的重要标准之一。比如两个多因子模型 A 和 B，如果使用模型 A 时异象的个数少于模型 B 时异象的个数，就会认为模型 A 比模型 B 更好。模型之间的对比也从侧面推动了对异象的研究。

相比之下，业界对异象的研究动机则“单纯”的多，且业界并不严格区分因子和异象。在业界看来，一个因子是否被纳入某个定价模型（从而从异象转变为定价因子）并不重要，而更关心在考虑了交易成本之后，使用该因子是否仍然能够获得超额收益。

3. 截面角度 vs. 时序角度

在上述介绍中，关注的都是在给定的因子模型下研究资产的预期收益和 β_i 之间的关系，即资产预期收益率在截面上的差异，因此多因子模型是关于均值的模型（model of the mean）。从数学定义可知，预期收益率是收益率在时间序列上的平均，因此均值的模型仅关心不同资产的收益率均值为什么会有差异，而非每个资产的收益率如何随时间变化。

把公式 (3) 在沿时间轴展开，资产超额收益和因子收益率在时序上满足如下多元线性回归模型：

其中 R_{it}^e 表示 t 时刻资产 i 的超额收益，λ_t 表示 t 时刻因子收益率，ε_{it} 表示 t 时刻的随机扰动。这就是研究多因子模型的时间角度。下图展示了截面角度和时序角度之间的切换。

在时序角度下，因子投资中的两个重要问题是方差模型（model of the variance）和因子择时。为了解释前者，把 N 个资产的时序多元回归模型放在一起表达：

其中 R^e_t = [R^e_{1t}, R^e_{2t}, …, R^e_{Nt}]’ 是 N × 1 阶超额收益向量；α = [α_1, α_2, …, α_N]’ 是 N × 1 阶定价误差向量；β = [β_1, β_2, …, β_N]’ 是 N × K 阶因子暴露矩阵；ε_t = [ε_{1t}, ε_{2t}, …, ε_{Nt}]’ 是 N × 1 阶随机扰动向量，满足：

对公式 (5) 两侧求协方差矩阵并利用 cov(λ_t, ε_t) = 0 可得：

式中 Σ（N × N 阶矩阵）、Σ_λ（K × K 阶矩阵）以及 Σ_ε（N × N 阶矩阵）分别为 N 个资产的协方差矩阵、K 个因子的协方差矩阵以及 N 个随机扰动的协方差矩阵。由于 ε 相互独立，因此 Σ_ε 是对角阵。公式 (6) 就是关于方差的模型。

从学术界的立场来看，(6) 意味着因子必须和资产的协方差矩阵有关，而这也正是因子需满足的两个必要条件中第一个条件的出处。值得一提的是，当下学术界流行的所有主流多因子模型要么来出自金融学或经济学原理，要么来源于自行为金融学的启发，但它们都没有直接从公式 (6) 传达的因子协方差矩阵和资产协方差矩阵的关系入手。

一个多因子模型代表着资产超额收益的某种结构，因此一个好的模型应该尽可能解释不同资产收益率间的共性运动。这反映到公式 (6) 上就是模型中因子的选择应使得 βΣ_λβ’ 尽可能接近资产协方差矩阵 Σ 的非对角线元素。但无论是经典的 Fama and French (1993) 三因子模型还是当下热门的 Hou, Xue, and Zhang (2015) 四因子模型等，均没有对此给予充分的考量。在最新的研究中，Pukthuanthong, Roll, and Subrahmanyam (2019) 指出了这种关联的重要性，并以此为依据提出了一个甄别真正因子的框架。可以预期，从公式 (6) 出发找到真正的因子、构建多因子模型将会是学术界未来的一个研究重点。

再来看看业界。业界对于 (6) 的关注和学术界有所不同，而是基于风险控制这个非常现实的考量。在投资中，一个很重要的风险指标是投资组合的波动率。投资组合的波动率由其包含的资产在组合中的权重、资产收益率的方差以及资产收益率之间的协方差决定。因此，计算投资组合的波动率就必须知道资产之间的协方差矩阵。从数学上说，如果使用历史收益率序列计算样本协方差矩阵，那么历史数据的期数 T 需满足 T ≥ N，否则用历史数据估算出的样本协方差矩阵就是不可逆的。当资产个数 N 很大时，要求 T ≥ N 是不切实际的。然而，如果把资产的收益率通过多因子模型转化为因子的收益率，则可以大大简化上述问题。

在多因子模型中，因子的个数 K 往往远小于资产的个数，因此使用多因子模型分析资产收益率相当于一种降维处理。公式 (6) 通过多因子模型把求解 N × N 阶的协方差矩阵巧妙地转化为求解 K × K 阶因子收益率的协方差矩阵。有了因子协方差矩阵，利用资产和因子收益率之间的线性关系就可以反推出资产收益率的协方差矩阵、进行风险控制，这种做法在投资实务中有巨大的价值。在海外的大机构中，使用多因子模型计算资产协方差矩阵、进行风险控制的有很多，但其中最著名的大概要数 Barra 多因子模型，极大简化了股票协方差矩阵的求解。

时序角度的另一个研究重点是因子择时。与截面角度只关心因子的预期收益率不同，在时序角度，人们关心的是因子收益率如何随时间波动。由因子的定义可知，因子代表了资产共同暴露于的某种系统性风险，而长期大于零的因子溢价正是对该系统性风险的补偿。这说明每个因子的收益率在时间序列上是有波动的，有时收益高，有时则面临亏损；且不同因子的收益率在不同宏观经济周期对应的市场环境中表现也是不同的。

在这方面，学术界通常关心的是不同因子和宏观经济以及投资者情绪之间的关系。而反观业界，由于业界使用因子的目的是进行资产配置和获取超额收益，因此自然会对因子收益率在时序上的变化产生极大的兴趣。这是因为如果能够通过择时来挑出某个因子“好使”的时候配置、在它“不好使”的时候规避，那么无疑会提高使用因子的风险收益水平。在这个动机的驱使下，因子择时始终是业界的研究热点之一。

4 统一视角

围绕公式 (3) 出发，从 β'_iλ、α_i 以及截面角度 vs. 时序角度三个维度，上文梳理了因子投资中所涉及的内容。下图对这三个维度进行了总结，它可以被视作因子投资的思维导图。

至此，我们终于勾勒出因子投资的统一视角。在这个视角下，从不同的维度出发掌握适当的研究方法，就能够搭建完善的因子投资研究体系，针对资本市场进行科学的实证分析和投资实践。

严格的说，学术界视角下因子投资的内容属于实证资产定价研究的范畴；而一般当人们谈论因子投资的时候，通常指的是业界的视角。然而，出于以下两个原因，本文提倡把学术界和业界关注的不同内容放入统一的视角，学习和实践因子投资。

首先，投资学大概是学术界和业界结合的最紧密的学科之一，而因子投资则是这种紧密结合的代表。经过了几十年的努力，学术界在实证资产定价方面提出了丰富的金融理论模型和计量经济学统计手段，并发现了诸如价值、盈利、动量等如今已被广泛认可的因子。这些发现自问世以来就持续地指导着因子投资实践。毫不夸张的说，因子投资的兴起深深的植根于学术界关于资产定价的研究中。而另一方面，业界的因子投资活动也为已有理论的反复检验和新理论的提出提供了充足的数据，促使学术界不断提出新的研究成果。

其次，作为一个理论指导实践的细分学科，虽然历经了几十年的发展，但因子投资依然在不断的完善和创新。最初，多因子模型仅是在人们拒绝了 CAPM 之后的代替之选，其后它逐渐发展成为股票投资的最有效手段之一。时至今日，多因子模型早已渗透到不同大类资产的投资中，且人们更是从因子的角度对各类资产收益率的底层驱动因素和逻辑进行分析，使用因子进行跨类别的大类资产配置。对因子投资的实践者来说，只有了解已有的各种研究方法，才能更好地迎接和拥抱因子投资未来的发展和变革。

基于上述两个原因，掌握学术界的研究成果对于培养正确的因子投资科学观至关重要；而将学术界的方法论和业界的实践相结合则可以形成更加立体的因子投资研究观。

5 《因子投资：方法与实践》

如果上面的内容成功激发起你对因子投资的兴趣，如果你也准备在因子投资中一展身手，那么下面安利的这本书 —— 《因子投资：方法与实践》，它在统一视角下把因子投资的方方面面讲清楚了，相信它能够帮到你。

这本书是我和刘洋溢、连祥斌两位小伙伴合著。它在前文介绍的统一视角下（事实上，本文前四节正是节选自该书的 1.1 节），成体系地介绍因子投资中的重要研究方法，并针对中国 A 股市场给出独立的、可复制的、高质量的因子实证分析结果，是一本真正可操作、可上手的因子投资手册。本书主要内容包括：因子投资基础、因子投资方法论、主流因子解读、多因子模型、异象研究、因子研究现状和因子投资实践。对于公众号的老朋友来说，本书既系统整合了 [川总写量化] 和 [因子动物园] 在过去几年的相关创作，又加入了大量紧贴学术前沿和业界实务的首发内容，以及全新的实证分析结果。全书共 440 页，参考文献 400+，行文逻辑清晰，内容与时俱进。

在本书写作过程中，我们得到了很多学界和业界同仁的帮助和鼓励。在此，特别感谢芝加哥大学布斯商学院修大成教授、清华大学五道口金融学院余剑峰教授、中国人民大学商学院张然教授，以及荷宝投资（Robeco）量化股票研究团队主管周维礼女士、易方达基金指数增强投资部总经理林飞博士、嘉实基金量化投资部总监刘斌博士的指正和推荐。

本书的出版自然也离不开电子工业出版社的认可与支持。本着打磨精品这一共同的目标，我们和电子社在创作全过程进行了深入和高效的合作。感谢陈林编辑的持续帮助和鼓励；感谢出版社各位老师在本书校订过程中的辛勤付出；感谢李玲为本书设计了精美的封面。相信本书不会让读者失望。以下是一组本书实物的精美图片；点击此处查看出版社官宣书讯，解锁更多细节。

除此之外，随本书推出的还包括配套网站（配套网站将在稍后通过单独的推文来推介；现在请允许我们再维持一下它的神秘感）。配套网站上将发布 “惊喜大礼包”：无论是基于 A 股市场的常见多因子模型还是我们特别编制的 Smart Beta 指数系列，都将提供长达 20 年以上的收益率数据下载；此外网站也会同步公众号发布因子投资的最新创作。希望这些工作能够助力中国因子投资的相关研究，为中国资本市场的发展尽一些绵薄之力。

本书现已在京东、当当等平台销售，感兴趣的朋友请扫以下二维码了解详情。

最后，因子投资所涵盖的内容博大精深。愿在践行因子投资这条充满荆棘的道路上，《因子投资：方法与实践》能够成为各位的挚友。希望它能够带你走入古老与创新并存、理论和实践并重的因子投资，掌握因子投资方法，体验因子投资魅力；使用因子投资在市场中获得更高的风险调整后收益。

这是我们由衷的期望。

这是写给你的因子投资。

参考文献

Ang, A. (2014). Asset management: A systematic approach to factor investing. New York, NY: Oxford University Press.

Fama, E. F. (1970). Efficient capital market: A review of theory and empirical work. Journal of Finance 25(2), 383 – 417.

Fama, E. F. and K. R. French (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics 33(1), 3 – 56.

Hou, K., C. Xue, and L. Zhang (2015). Digesting anomalies: An investment approach. Review of Financial Studies 28(3), 650 – 705.

Pukthuanthong, K., R. Roll, and A. Subrahmanyam (2019). A protocol for factor identification. Review of Financial Studies 32(4), 1573 – 1607.

Ross, S. A. (1976). The arbitrage theory of capital asset pricing. Journal of Economic Theory 13(3), 341 – 360.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

合格投资者声明

[置顶] 统一视角下的因子投资