均值回归：循规蹈矩，偶发癫狂

发布时间：2017-06-22 | 来源: 川总写量化

作者：石川

摘要：均值回归策略在量化投资中应用广泛。但是它往往“收益有限、风险无限”。本文就来揭开它神秘的面纱。

1 引言

均值回归指的是一个变量随着时间的变化在其均值上下波动的现象。

自然科学和社会科学中都有大量均值回归（mean reversion 或 reverting to the mean）的例子。下图为尼罗河年最低水位随时间的变化，它表现出了明显的均值回归特性。

在社会科学中，诺贝尔奖获得者、著名的行为金融学家、展望理论的提出者 Daniel Kahneman 曾提出了一个“体育画报诅咒”的例子：凡是登上体育画报封面的明星，在接下来的新赛季的表现都会“跌落人间”。科学研究表明，运动员的表现也是围绕均值呈随机分布。因此，上一个赛季拥有高光表现的明星（以至于登上了体育画报），有很大可能在接下来的新赛季变得平庸。换句话说，运动员的表现呈现均值回归特性。

虽然远不如自然和社会科学中的现象完美，但是在金融市场投资中也有近似均值回归的现象，更是存在大量的围绕该现象构建的投资策略。那么，依靠均值回归是否能够挣到钱呢？这样的策略风险又有多大呢？这些就是本文要探讨的问题。

2 金融领域的均值回归

根据维基百科，金融市场的均值回归定义如下：

In finance, mean reversion is the assumption that a stock's price will tend to move to the average price over time.

我们可以把上述定义中的“股票”换成其他任何投资品。我想强调的是，这个定义中最核心的两个字是价格（而不是投资品的收益率）。这一点怎么强调都不过分：

“价格呈现均值回归”等价于“收益率呈现负的序列相关性”。这是一种非常好的、可以被拿来构建优秀策略的特性。

“收益率呈现均值回归（即收益率围绕 0 随机的上下波动）”等价于“价格呈现随机游走”。这是投资品最差的一种形态（不幸的是，这也恰恰是实际中的情况），在这种情况下不存在有效的赚钱策略（运气除外）。

在现实中，绝大多数单一（特地提出单一，为后面留个伏笔）投资品价格都不满足均值回归。如果有明显的均值回归，那么赚钱就太容易了，我们只需要做到所有那些伪专家说的“高抛低吸”。满足均值回归时，由于格在区间内震荡且围绕其均值波动，高抛低吸当然是可能的。比如下图是上证指数从 2016 年 11 月到现在的波动区间，上限 3300 附近、下限 3050 左右。如果它就在这个区间内呈现均值回归的话，那么我们还愁赚不着钱吗？

然而，现在来看都是事后诸葛亮。当我们身在其中的时候，又有谁敢说上证指数会在这个区间内震荡呢？满足均值回归的投资品在现实中几乎没有的。如果一个时间序列满足均值回归，那么它一定也满足平稳性。平稳性要求时间序列的均值和方差不随时间变化。显然，投资品的价格无法满足这样的假设。

现实中，投资品价格基本上都呈现几何随机游走（关于这方面，感兴趣的读者可以参考《布朗运动、伊藤引理、BS 公式》和《写给你的金融时间序列分析》系列文章）。虽然单一投资品的价格不满足均值回归，但幸运的是，我们可以把多个投资品（通常是两个）线性组合在一起，使它们的价差满足均值回归。

在数学上，如果多个非平稳的时间序列通过线性组合得到一个平稳的时间序列，则把满足这种关系称为协整（cointegration）。正因如此，均值回归这种现象才在金融领域才有了广泛的应用。如果一个价格（或者价差）序列满足均值回归，那么当前的价格对下一时刻价格的变化应该有预测性。例如，如果当前的价格高于均值，那么下一时刻的价格会倾向于朝着均值移动。基于这样的假设可以构建一个描述均值回归的线性数学模型。

对于价格（或多个投资品线性组合的价差）序列 y，该模型为：

我们可以通过历史数据来估计模型中的参数。如果 y 满足均值回归，那么这个模型中的参数 λ 就必须在统计上显著的不为零（更确切的说，λ 需要显著为负）。通常可以使用 ADF 检验（Augmented Dickey-Fuller Test）来考察 λ 的取值。

ADF 检验

原假设为当前的价格对下一时刻价格的变化没有预测性，即 λ=0。该检验的统计量是 λ 和它自身标准误差之比，即 λ/SE(λ)。对于均值回归模型，我们预期 λ/SE(λ) 为负。因此，只有当这个统计值小于给定显著性水平的阈值（阈值是负数）时，我们才能在对应的置信水平下拒绝原假设、接受备择假设，即 λ 统计上不为 0 而序列 y 呈现均值回归特性。

一旦找到一个满足均值回归的价格或者价差序列，就可以用它构建一个均值回归策略，并利用这种特性来赚钱。下面我们就来看看一个经典的例子。

3 配对交易

EWA 和 EWC 的配对交易是均值回归策略的一个经典例子。他们分别代表澳大利亚（EWA）和加拿大（EWC）股指的两个 ETFs。由于这两个国家的经济都主要依靠商品，因此我们预期在特定的线性组合下，这两个 ETFs 的价差满足均值回归。为了验证这一点，首先画出这两个 ETFs 的价格序列（下图）。可见，它们确实有很高的相似度，当然这两个价格之间的比例并不是 1:1——在绝大多数情况下，EWA 要比 EWC 高一些，它们之间存在一个随时间变化的比例，这个比例也称作 hedge ratio。

如果用 θ_t 来表示 t 时刻它们的比例，则可以构建如下关系：

换句话说，d_t 就是它们线性组合得到的价差序列：

如果我们假设 θ_t 不随时间变化而是一个常数，则可以用这两个历史价格序列做线性回归，从而确定 θ 的取值。之后便可以计算它俩线性组合的价差序列，如下图所示。

直观上看，价差序列确实符合均值回归。对它进行 ADF 检验，得到的统计值为 -4.09（p-value 为 0.0065），小于显著性 1% 对应的阈值 -3.96，这说明我们可以在 99% 的置信水平下拒绝原假设。ADF 检验说明该价差序列满足均值回归。

如何利用这个价差序列来构建量化策略呢？首先必须明确的是，在这个策略中，我们交易的将是这个价差。当价差在均值之下的时候，则做多价差；当价差在均值之上的时候，则做空价差。但不要忘记，价差是我们人为构建的。因此在实际交易中也必须通过配对交易 EWC 和 EWA 来实现对价差的多空交易。根据价差的数学表达式，最终的量化策略为：

当 d_t 小于均值之下的某个阈值时（做多买入点，long entry），做多 d_t，即做多 1 个单位的 EWC 并同时做空 θ_t 个单位的 EWA，当 d_t 回归到均值之上的某个阈值时（做多平仓点，long exit），平仓；

当 d_t 大于均值之上的某个阈值时（做空买入点，short entry），做空 d_t，即做空 1 个单位的 EWC 并同时做多 θ_t 个单位的 EWA，当 d_t 回归到均值之下的某个阈值时（做空平仓点，short exit），平仓。

在实际交易中，必须确定多空双向交易开仓和平仓的阈值。此外，我们也假设这两个投资品的比例 θ_t 是随时间变化的。在我们的实验中，采用状态空间模型（state space model）中的卡尔曼滤波（Kalman filter）算法来动态确定 θ_t 以及上面提到的阈值的取值。状态空间模型的思想可以简述为它将 θ_t 看作一个未知的状态，并通过观测值来确定状态的取值。详细的介绍超出本文的范畴，我们会在今后某期量化核武研究专题中介绍状态空间模型。由于交易的是 ETFs，我们假设万分之三的成本。在这种假设下，上述价差交易策略的净值曲线和最大回撤曲线如下：

在回测期内，策略的年化连续复利收益率为 8.72%，最大回撤 -9.38%，夏普率 1.00。从净值和最大回撤曲线中看出很大的一部分收益来自 2009 年；另外，在 2013 年到 2015 年间，策略发生了长达 700 多个自然日的回撤。尽管如此，策略的整体表现依然算是可圈可点，因此这哥俩的配对交易算是均值回归策略里面的经典案例。

在上面这个例子中，让我们愿意相信该价差能够维持均值回归的根本原因是基本面层面的，即澳大利亚和加拿大这两个国家的经济都由商品贸易主宰。只要这个先决条件不变，我们有理由相信它们的价差会一直均值回归下去。但是必须说明的是，与趋势追踪策略的“收益无限、风险有限”恰恰相反的是，均值回归策略“收益有限、风险无限”。当基本面原因的突然消失以及使用超高杠杆时，一个均值回归策略必然骤然失效、导致惨痛的亏损。长期资本的故事正是如此。

4 长期资本的教训

长期资本管理公司（Long-Term Capital Management）曾经是美国华尔街首屈一指的对冲基金公司，在基本没有亏损和回撤的情况下，取得了 1994 成立至 1997 年辉煌顶峰每年费后 28.5%、42.8%、40.8% 和 17% 的投资净回报。1998 年初其净资产达到 46 亿美元，通过 33 倍杠杆控制 1500 亿美元规模的金融资产。

长期资本管理公司的投资策略基于市场的有效性，认为资本市场不合理的债券利差会逐渐减小，可以通过买入低估资产/卖出高估资产赚取这部分利差。他们通过对大量历史数据的测算，认为可以通过对债券投资进行严格对冲，保证一个极低的风险暴露。在执行层面，他们通过精确的电脑自动数学模型发现众多宝贵的债券利差投资机会，并通过向同业金融机构融资，运用巨大的财务杠杆来放大收益。

1998 年初，亚洲金融危机爆发后低信用等级国债相较欧美国债利差显著扩大。经过模型计算，长期资本管理公司的交易员相信互换利率交易利差会逐渐回缩。所以，他们动用大量资金抛空互换利率交易利差。1998 年 8 月，俄罗斯金融危机爆发，俄罗斯违背了承诺拒绝偿付债款并任由卢布贬值；国际炒家和投资者纷纷撤资，从各种低信用等级债券中仓皇出逃，而这些撤出的资金唯一目的地就是风险较低的欧美国家债券。所以，美国短期债券和 30 年长期债券利率大幅下调，长期资本公司持有的大量俄罗斯债券以及各种低信用国债利率火箭攀升，二者之间的利差并未如预期缩小而是进一步显著放大，高杠杆下产生的亏损惊人，长期资本管理公司的净资产 1 个多月时间缩水 60%，被迫被美林、摩根出资收购接管，并于 2000 年彻底倒闭清算。这个教训是对均值回归“风险无限”最好的诠释。

5 正确认知

尽管具有“收益有限、风险无限”的特性，但均值回归策略仍然在量化投资中占据着一席之地。如何来正确的看待它的优缺点呢？首先，随着层出不穷的金融工具，越来越多的投资品的线性组合将会满足均值回归特性。满足协整的投资品都存在某种基本面的原因，比如上面的 EWA 和 EWC，又比如 GDX 和 GLD —— 前者是跟踪金矿开采公司而后者跟踪黄金。诸如此类的例子还有很多。此外，均值回归策略在投资的频率和周期上非常灵活。我们既可以在高频交易中找到价格的背离而运用均值回归策略，又可以在低频的价值投资中找到价格偏离基本面价值的公司来进行投资（价格最终会回归到基本面价值）。因此均值回归策略的适用面非常广泛。另一方面，均值回归和主流的趋势追踪策略有很高的互补性。同时使用的话可以提高一个投资组合的夏普率。这些都是均值回归策略的优点。

而缺点方面，就如同上面长期资本的例子。谁也不知道基本面原因是否会突然失效。举个例子，GDX 和 GLD 的价差在 2008 年突然失效，后来得知是因为能源价格的蹿升（金矿开采需要大量能源）。因此，如果没有做好风控而依然等着价差回归的话可能会因此而死的很惨。后续研究发现，GDX、GLD 和油价三者从那之后可以构建出满足协整的线性组合。再有就是当一个均值回归策略让使用者尝到甜头之后，因为其较高的夏普率，投资者往往会变得非常大胆从而不自觉的加大杠杆。这无疑相当于身上随时绑着一颗雷。一旦价格未按预想的回归，则有可能在很短的时间内产生巨大的亏损。

最后来看看均值回归策略都有哪些应用场景：

股票配对：同行业内相似的公司（比如花旗银行和美国银行）的股价的价差可能满足均值回归。但无论在基本面还是操作层面，这都是有困难的。基本面层面，每个公司有自身独有的风险，因此无法保证价差回归。操作层面，配对交易需要做空股票，这是有高额的成本的。

ETF 配对：ETF 配对交易比股票配对交易要更切实际一些，就如同上面 EWA 和 EWC 的例子。此外，ETF 由于包括一篮子股票，它可以规避公司特有的风险。

指数套利：这指的是同时交易指数以及构成该指数的成分股。当然，这仅仅是理论上存在套利的可能，而实际交易是要面对种种限制以及可观的交易成本。

截面均值回归：我们可以考虑一篮子股票。这里均值回归的定义为，这些股票的价格虽然不一定相对于它们各自的长期均值回归，但是它们的收益率会相对于这一组股票的平均收益率来回归。即这一篮子股票中，之前涨的好的可能要跌一跌，而之前跌的多的就要涨一涨。这也就是人们常说的“补涨补跌”，相信你一定不陌生。

恐慌指数均值回归：芝加哥期权交易所的 VIX 恐慌指数远近闻名。它测量的是标普 500 指数在未来 30 天的波动率情况。不论你是否相信，波动率自身呈现一定的均值回归特性。这是因为波动率不可能持续的增大或者减小（想象一下波动率持续往一个方向变化是，对应的收益率会如何变化），因此它只能围绕均值波动。因此，市场中有很多围绕 VIX 的投资工具（比如 VXX 和 XIV）进行均值回归的策略。

商品期货配对：商品期货市场蕴含了均值回归策略的巨大机会。外汇的交叉汇率以及商品的跨期套利、跨市场套利都是孕育均值回归策略的肥沃土壤。

这些巨大的应用前景维持着均值回归策略旺盛的生命力；任何一个量化投资团队都无法对它视而不见。

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

合格投资者声明

均值回归：循规蹈矩，偶发癫狂