写给你的金融时间序列分析：回归篇

发布时间：2024-06-04 | 来源: 川总写量化

作者：石川

摘要：时间序列回归分析并非是简单地将两个序列进行回归处理，而是一个需要精心设计和仔细考量的过程，每一步都涉及到对数据特性的深入理解和对模型假设的严格检验。

0 引言

本文继续拓展《写给你的时间序列分析》系列。系列的前序文章《写给你的金融时间序列分析：基础篇》、《写给你的金融时间序列分析：初级篇》、《写给你的金融时间序列分析：进阶篇》、《写给你的金融时间序列分析：应用篇》和《写给你的金融时间序列分析：补完篇》主要是针对单一时间序列的检验和建模。本文则介绍多个时间序列之间的回归问题。

在时序回归模型中，最简单的模型是静态模型（static model）:

$y_t=\beta_0+\beta_1x_t+u_t, t=1,2,\cdots,n.$

在该模型中，“静态”意味着模型考察的是 $y$ 和 $x$ 之间的同期关系（比如做多因子时序回归检验）。与之相对应的是有限分布滞后模型（finite distributed lag model，FDL）。例如，一个 $q$ 阶 FDL 模型为：

$y_t=\alpha_0+\delta_0x_t+\delta_1x_{t-1}+\cdots+\delta_qx_{t-q}+u_t,$

式中 $\delta_0$ 为当期的 $x_t$ 对 $y_t$ 的影响，它被称为 impact propensity；而全部系数之和，即 $\delta_0+\cdots+\delta_q$ ，则称为 long-run propensity。

不同于截面回归，时序回归的难点在于各种（自、协）相关性的处理：包括解释变量的自相关性、随机扰动（error）的自相关性；前、后不同期解释变量和 error 的协相关性等。因此，在通过回归来分析时间序列时需要格外小心，避免得到错误的统计推断结果。本文的主要内容包括，有限样本下 OLS 估计量的性质、大样本下 OLS 估计量的渐近性质、error 自相关性检验和应对、error 异方差性问题、伪回归、协整及其推断以及误差修正模型。本文的 technique 部分主要参考了 Wooldridge 的神书 Introductory Econometrics: A Modern Approach，特此说明。

1 Finite Sample Properties of OLS

在有限样本下，OLS 的核心假设包括：

假设一（Linear in parameters）：总体中 $x$ 和 $y$ 满足线性关系。
假设二（No perfect collinearity）：解释变量之间不存在完美的共线性。
假设三（Zero conditional mean）： $\mathbb{E}[u_t|\mathbf{X}]=0, t=1, 2, \cdots, n$ 。这意味着所有解释变量都是外生的，即任何解释变量，在任何时刻都和 $u_t$ 不相关。

为了加强理解，我们再对假设三做一些说明。首先，这个假设中最重要的就是 $u_t$ 和任何时刻的任何 $x$ 都是不相关的。因此， $\mathbf{X}$ 是严格外生的。如果 $u_t$ 和 $\mathbf{X}$ 不相关且 $\mathbb{E}[u_t]=0$ ，则这条假设自动成立。在上述三条假设下，OLS 估计量是无偏的，即 $\mathbb{E}[\hat\beta_j]=\beta_j, j=0, 1, \cdots, k$ 。然而，如果 $u_t$ 仅和同期的解释变量 $x_{tj}, \forall j$ 之间满足 $\mathbb{E}[u_t|x_{tj}]=0, \forall j$ ，则称 $x_{tj}$ 是同期外生的。它对于假设三而言是一种放松。在同期外生假设下，OLS 估计量是一致的，但（对于有限样本来说）不一定是无偏的。

除上述三条假设外，再考察下面两个假设：

假设四（Homoskedasticity）：同方差，即 $\text{var}(u_t|\mathbf{X})=\mbox{var}(u_t), t=1, 2, \cdots, n.$
假设五（No serial correlation）： $\text{corr}(u_t, u_s|\mathbf{X})=0, \forall t\ne s$ 。这条假设是关于 error 自相关性的。它对解释变量的自相关性不做任何假设。（解释变量存在自相关性也是时序回归模型的特点之一。）

上述五条假设正是时序回归模型的 Gauss-Markov 假设。当这些假设均成立时，

$\displaystyle\text{var}(\hat\beta_j)=\frac{\sigma^2}{\text{SST}_j(1-R_j^2)}, j=1,\cdots,k,$

其中 $\text{SST}_j$ 是 $x_{tj}$ 的 total sum of squares， $R_j^2$ 是把 $x_j$ 对其他解释变量回归的 R-squared。此外，以下这个常见的 error 方差估计量也是无偏的：

$\displaystyle\hat\sigma^2=\frac{\mbox{SSR}}{n-k-1},$

其中 $n$ 是期数、 $k$ 是解释变量的个数。且 Gauss-Markov 定理指出，在上述五条假设都满足下，OLS 是 BLUE。此外，和截面回归一样，如果要进行统计推断，就必须假设 error 的分布。这就引出了第六条假设，即 $u_t$ 和解释变量 $\mathbf{X}$ 完全独立、且满足 iid 正态分布 $\mathcal{N}(0, \sigma^2)$ 。全部六条假设构成了时间序列回归的 Classical Linear Model (CLS) assumptions。在这些假设下，我们可以像截面回归一样，使用 t-statistic 来检验单一解释变量的回归系数，用 F-statistic 来同时检验多个解释变量的回归系数。

2 Asymptotic Properties of OLS

2.1 平稳性和弱相关性

对于绝大多数实际问题而言，前一节的 Gauss-Markov 假设都太严苛了，难以满足（特别是解释变量严格外生）。因此，比起考察有限样本下 OLS 估计量的特性外，我们自然更关心在大样本下 OLS 估计量的渐近性质。不过讽刺的是，对于时序回归模型而言，我们往往很难有足够多的样本。（比如用月频收益率数据检验一个多因子模型，那么每年才有 12 个样本，50 年也才有 600 个样本。）不幸的是，时序问题的大样本分析比截面数据分析复杂得多。我们需要格外小心数据的相关性。为此，我们首先来回顾平稳性和弱相关性的概念。

如果随机过程 $\{x_t: t=1, 2, \cdots\}$ 在任意时刻的分布是一样的，就说它满足平稳性。严格的平稳性是非常强的假设。通常，如果 $\mathbb{E}[x_t]和\text{var}(x_t)$ 不随时间变化，且 $\text{cov}(x_t, x_{t+h})$ 不随 $t$ 和 $h$ 变化，我们说 $x_t$ 是协方差平稳过程（covariance stationary process）。在直觉上，平稳性的要求不难理解：如果我们希望通过回归分析来理解两个变量之间的关系，则需要假设这种关系在时间上是稳定的。如果两个变量之间的关系在每个时间段内任意变化，而我们仅仅有关于它们的一个 realization（毕竟“历史无法重来”），那么显然无法指望能通过时序回归模型挖掘出二者之间的靠谱关系。

对于一个平稳序列，如果 $x_t$ 和 $x_{t+h}$ 随 $h$ 的增加几乎是独立的，那么我们称它满足弱相关性。对于上面提到的协方差平稳过程，如果 $\text{corr}(x_t, x_{t+h})$ 随 $h$ 的增大逐渐趋近于 0，则它满足弱相关性，这也称为渐近非相关。这里最重要的假设是 $x_t$ 前后之间的影响不是“永久性”的，而是会逐渐衰退至没有影响。值得一提的是，一个非平稳的时间序列（比如有趋势的序列）也可以满足弱相关性。这类过程称为趋势平稳过程（trend-stationary process）。

2.2 渐近性质

一旦平稳性和弱相关性得到满足，大数定律和中心极限定理就可以适用，因此在大样本下可以获得 OLS 估计量的一些良好性质，从而帮助分析 $x$ 和 $y$ 之间的关系。下面我们来看看大样本下，OLS 估计量有哪些渐近性质。首先来看假设：

假设一（Linear in parameters）：这一条和前一节中的假设一相同。除此之外，我们假设 $\{\mathbf{x}_t, y_t\}$ 满足平稳性和弱相关性。
假设二（No perfect collinearity）：解释变量之间不存在完美的共线性。
假设三（Zero conditional mean）： $\mathbb{E}[u_t|\mathbf{x}_t]=0, t=1, 2, \cdots, n$ 。相比于前一节中的假设三，此处把它放松到 $t$ 期 $u_t$ 和解释变量 $\mathbf{x}_t$ 的独立性了。相比于严格外生，这一条要弱很多，只限制同时期的相关性，而对于 $u_t$ 和任何非 $t$ 时刻的解释变量之间的关系不做任何限制。当平稳性满足时，如果 $\mathbb{E}[u_t|\mathbf{x}_t]=0$ 对某一期 $t$ 成立，则它对所有的 $t=1,2, \cdots, n$ 都成立。然而，这条假设下允许 $t$ 期的 $u_t$ 影响未来的解释变量 $\mathbf{x}_{t+h}$ 。

当以上三条假设均满足时，OLS 估计量是一致的，即 $\text{plim}(\hat\beta_j)=\beta_j, j=0, 1, \cdots, k$ 。需要注意的是，由于上述假设放松了解释变量的外生性，因此我们只能在大样本下得出 OLS 估计量的一致性，而无法得出无偏性。

接下来，和本文第 1 节一样，再加上假设四和假设五：

假设四（Homoskedasticity）：同方差，即 $\text{var}(u_t|\mathbf{X})=\mbox{var}(u_t), t=1, 2, \cdots, n.$
假设五（No serial correlation）： $\text{corr}(u_t, u_s|\mathbf{x}_t, \mathbf{x}_s)=0, \forall t\ne s$ 。

当上述五个假设都满足时，OLS 估计量在大样本下表现出很好的渐近性质：（1）OLS 估计量满足渐近正态分布；（2）所有相关的 t-statistic 和 F-statistic 都是渐近成立的；（3）OLS 是渐近有效的，即它的方差相比于其他 estimators 的方差更低。

3 Error Serial Correlation

由以上介绍可知，error 存在自相关并不影响 OLS 估计量的无偏性。然而，它会影响 $\hat\beta$ 的方差的估计。在这种情况下，所有相应的 test（例如 t-test、F-test）哪怕在大样本下也没有好的渐近性质。因此，对于统计推断而言，检验并应对 error 的自相关性十分必要。

3.1 自相关性检验

一般来说，我们可以检验 error 是否满足 AR(1) 过程。此时，取决于解释变量是否严格外生，又分为两种情况。首先假设解释变量严格外生，则可以通过如下的步骤检验：

Step 1: 用 $y_t$ 对 $\mathbf{x}_t$ 时序回归，得到残差序列 $\{\hat u_t\}$ 。
Step 2: 用 $\hat u_t$ 对 $\hat u_{t-1}$ 时序回归，即 $\hat u_t=\rho \hat u_{t-1}+e_t, t=2, \cdots, n$ 。
Step 3: 考察回归系数 $\hat \rho$ 的 t-statistic，并进行统计推断。如果拒绝原假设 $H_0: \rho=0$ ，则说明 error 存在自相关性。

值得一提的是，上述第二步中的自回归模型中假设了 $e_t$ 满足同方差。如果 $e_t$ 不满足该性质，可以使用 Breusch-Pagan test 来检验异方差性（见本文第 4 节）。如果存在异方差，则可以计算 $\hat\rho$ 的 heteroskedasticity-robust standard error，从而得到 heteroskedasticity-robust t-statistic。

除了上述方法外，另一个常见的检验是 Durbin-Watson Test（DW Test，比如 Python 的 OLS 回归结果会返回 DW test 的值）。该统计量为：

$\displaystyle\text{DW}=\frac{\sum_{t=2}^n(\hat u_t-\hat u_{t-1})^2}{\sum_{t=1}^n\hat u_t^2}.$

通常情况下， $\hat\rho$ 和 DW 统计量近似满足如下关系： $\mbox{DW} \approx 2(1-\hat\rho)$ 。因此，如果 DW 统计量接近 2，则说明 error 没有自相关性。

接下来看看解释变量不是完全外生的情况。在这种情况下，上述检验不再有效（及时在大样本下也是如此），因此不能使用。此时，可以将上述三步走中的第二步改为如下的回归模型：

$\hat u_t=\hat\beta_0+\hat\beta_1 x_{1t}+\cdots+\hat\beta_k x_{kt}+\rho \hat u_{t-1}+e_t,$

即使用 $\hat u_t$ 对 $\mathbf{x}_t$ 以及 $\hat u_{t-1}$ 进行时序回归。之后，便可以对 $\hat \rho$ 进行常规的统计推断。此外，上述检验也可以方便地拓展到残差满足 $AR(q)$ 的情况，即在第二步考虑如下回归模型：

$\begin{array}{rll} \hat u_t&=&\hat\beta_0+\hat\beta_1 x_{1t}+\cdots+\hat\beta_k x_{kt}\\ &&+\rho_1 \hat u_{t-1}+\rho_2 \hat u_{t-2}+\cdots+\rho_q \hat u_{t-q}\\ &&+e_t, t=2, \cdots, n. \end{array}$

然后，可以使用 F test 检验 $\rho_1$ 到 $\rho_k$ 是否联合显著。如果对异方差有担忧，也同样可以使用 heteroskedasticity robust F-statistic。此外，也可以使用 Lagrange Multiplier (LM) statistic，这种检验也被称为 Breusch-Godfrey test，它的检验统计量是 $\mbox{LM}=(n-q)R^2$ ，其中 R-squared 是上述第二步中的 Goodness-of-fit。

3.2 修正 Error 自相关性

如果 error 存在在相关性，我们可以对它进行处理。假设 error 是一个 AR(1) 过程且 $\rho$ 已知：

$u_t=\rho u_{t-1}+e_t, \forall t=1,2,\cdots.$

由上述模型可知 $\text{var}(u_t)=\sigma_e^2/(1-\rho^2)$ 。由于 $\rho$ 已知，因此对原始时间序列模型变形可得（为了简化数学公式，假设只有一个解释变量，多个解释变量的情况可以非常容易的扩展）：

$\begin{array}{rll} y_t-\rho y_{t-1}&=&(1-\rho)\beta_0+\beta_1(x_t-\rho x_{t-1})+e_t, t\ge 2\\ (1-\rho^2)^{1/2}y_1&=&(1-\rho^2)^{1/2}\beta_0+\beta_1(1-\rho^2)^{1/2}x_1+(1-\rho^2)^{1/2}u_1 \end{array}$

上述变形后得到的估计量为 GLS 估计量，它是 BLUE，因此 t test 和 F test 都可以正常使用。GLS 估计量中假设 $\rho$ 已知。然而，在实际问题中，这几乎是不切实际的，因此只能对 $\rho$ 进行估计，得到 $\hat\rho$ 。在这种情况下，上述 GLS 变成 feasible GLS（FGLS）。假设 error 满足某个参数未知的 AR(1) 过程，则 FGLS 的步骤为：

Step 1: 用 $y_t$ 对 $\mathbf{x}_t$ 时序回归，得到残差序列 $\{\hat u_t\}$ 。
Step 2: 用 $\hat u_t$ 对 $\hat u_{t-1}$ 时序回归，即 $\hat u_t=\rho \hat u_{t-1}+e_t, t=2, \cdots, n$ 。
Step 3: 考虑如下回归模型（注意：该模型没有截距项）： $\tilde y_t=\beta_0\tilde x_{t0}+\beta_1\tilde x_{t1}+\cdots+\beta_k\tilde x_{tk}+\mbox{error}_t,$ 其中 $\tilde x_{t0}=(1-\hat\rho), \forall t\ge2$ ； $\tilde x_{10}=(1-\hat\rho^2)^{1/2}$ ； $\tilde x_{tj}=x_{tj}-\hat\rho x_{t-1,j}, \forall t\ge2$ ； $\tilde x_{1j}=(1-\hat\rho^2)^{1/2}x_{1j}$ ； $\tilde y_{t}=y_{t}-\hat\rho y_{t-1}, \forall t\ge2$ ； $\tilde y_1=(1-\hat\rho^2)^{1/2}y_1$ 。

在这个回归模型中，t test 和 F test 都在大样本下是渐近有效。上述的模型看上去如此复杂是因为 $t = 1$ 是第一个点，因此没法差分消除 error 自相关性的影响，所以对它进行了特殊处理。上述这个考虑了时序上第一个点的 FGLS 也被称为 Prais-Winsten estimation。此外，也可以舍弃第一个点，那么上述回归将会从 $t = 2$ 开始，表达式也会变得更简单，它被称为 Cochrane-Orcutt estimation。对于很多经济学问题，时序上样本点是很宝贵的，因此不愿意舍弃第一个点而采用 PW estimation。

无论 $\rho$ 是否已知，即无论我们用 GLS 还是 FGLS 还修正残差相关性，上述的核心假设都是解释变量是完全外生的。当这个假设难以满足的时候，FGLS estimator 则不满足一致性。换句话说，费了半天劲的 FGLS 可能还不如 OLS 好使。最近几年，人们更倾向于仍然使用 OLS，但此时由于 error 存在自相关性，因此需要进行 serial correlation-robust inference。

3.3 Serial Correlation-Robust Inference for OLS

考虑如下时序回归模型：

$y_t=\beta_0+\beta_1 x_1+\cdots+\beta_k x_k+u_t.$

为了方便讨论，假设我们关注 $\hat\beta_1$ 并希望得到它的 serial correlation-robust standard error。为此，可以采取如下步骤：

Step 1：进行 OLS 回归，得到 $\hat\beta_1$ 的 standard error，记为“ $\text{s.e.}(\hat\beta_1)$ ”，同时得到 $\hat\sigma$ 以及残差序列 $\{\hat u_t\}, t=1,2,\cdots,n$ 。
Step 2：以 $x_{t1}$ 为被解释变量（因为我们关心的是 $\hat\beta_1$ ），以其他 $x_{t2}, x_{t3}, \cdots x_{tk}$ 为自变量，构造如下回归模型： $x_{t1} = \hat\delta_0+\hat\delta_2 x_{t2}+\cdots+\hat\delta_k x_{tk}+\hat r_t.$
Step 3：利用 OLS 得到残差序列 $\{\hat r_t\}$ 。用该序列和 $\{\hat u_t\}$ 序列相乘得到新的序列

$\{\hat a_t=\hat r_t\hat u_t\}, t=1,2,\cdots, n$ 。

Step 4：选定希望考虑的自相关 lags $g$ ，计算变量 $\hat\nu$ （有没有想起 Newey-West）：

$\displaystyle\hat \nu=\sum_{t=1}^n\hat a_t^2+2\sum_{h=1}^g\left[1-\frac{h}{g+1}\right]\left(\sum_{t=h+1}^n \hat a_t\hat a_{t-h}\right).$

Step 5：使用以下公式得到 $\hat\beta_1$ 的 serial correlation-robust standard error：

$\displaystyle\text{s.e.}(\hat\beta_1)=\left[\frac{\text{“s.e.}(\hat\beta_1)\mbox{”}}{\hat\sigma}\right]^2\sqrt{\hat \nu}.$

通常情况下，如果 error 确实存在自相关性，那么上述得到的 standard error 会大于 OLS 的 standard error。当 error 自相关非常严重时，使用上述方法得到的 standard error 往往非常大，导致回归系数不再显著。在实践中，如果能够合理的认为解释变量是完全外生的话，则建议使用 FGLS；反之，如果我们对解释变量的外生性存在非常强烈的疑问时，可以选择 OLS + serial correlation-robust standard error。

4 Heteroskedasticity

异方差意味着 error 的波动随 $t$ 发生变化。比如，在我们以收益率为被解释变量而进行时序回归时，几乎可以肯定 error 存在异方差性。为此，可以使用 Breusch-Pagan test 来检验异方差。不过需要注意的是，该检验的前提是必须保证 error 没有自相关性。所以，通常为了检验异方差，也要先检验自相关性。

Breusch-Pagan test 的步骤总结如下：

Step 1：通过 OLS 来估计原始回归模型，得到残差序列 $\{\hat u_t\}$ ： $y_t=\hat\beta_0+\hat\beta_1x_{1t}+\cdots+\hat\beta_k x_{kt}+\hat u_t.$
Step 2：使用 $\hat u^2$ 作为被解释变量，并考虑如下回归模型，计算其 R-squared，记为 $R_{\hat u^2}^2$ ： $\hat u^2=\delta_0+\delta_1x_{1t}+\cdots+\delta_kx_{kt}+e_t.$
Step 3：构建 F-statistic 或 LM-statistic 如下：

$\displaystyle\text{F-statistic}=\frac{R_{\hat u^2}^2/k}{(1-R_{\hat u^2}^2)/(n-k-1)}\sim F_{k, n-k-1},$

$\displaystyle \text{LM-statistic}=nR_{\hat u^2}^2\sim\chi^2_k.$

Step 4：根据 F-statistic 或 LM-statistic 判断是否拒绝原假设（原假设是没有异方差）。如果存在异方差，那么它虽然不会影响回归系数的无偏性，但是会影响 standard errors，因此应使用 heteroskedasticity-robust standard errors。

5 伪回归

5.1 I(1) 序列

从上面的论述可知，大样本下 OLS 满足良好渐近性质的关键条件是时间序列满足平稳性和弱相关性。对于有些时间序列，其前后满足强相关性（比如股票价格），这时就应该进行必要的处理。不满足弱相关性的一个例子正是随机游走（Random Walk）： $y_t=y_{t-1}+e_t$ ，其中 $e_t$ 是 iid 的白噪声。从这个模型中可以推出 $y_t=e_t+e_{t-1}+\cdots+e_1+y_0$ ，因此有 $\mathbb{E}[y_t]=\mathbb{E}[y_0]$ ，这意味着不管 $t$ 多大，0 时刻的取值 $y_0$ 都对 $y_t$ 有着无法磨灭的影响。更进一步的可以推出：

$\begin{array}{rll} \mathbb{E}[y_{t+h}|y_t]&=&y_t, ~\forall h\ge 1,\\ \text{corr}(y_t, y_{t+h})&=&\displaystyle\sqrt{\frac{t}{t+h}}. \end{array}$

随机游走是一个特殊的 unit root process。更一般的情况中， $y_t=y_{t-1}+e_t$ 中的 $e_t$ 可以不满足 iid，而是某个 AR 或者 MA 过程。在这种更一般的情况下，random walk 的一些性质不再满足。然而不变的是， $y_t$ 序列之间的相互影响依然是不能随时间间隔的增大而消除，因此它依然不是平稳的。Unit root process 的单整阶数为 1，因此是一个 $I(1)$ 序列。而一个平稳序列的单整阶数应是 0，又称为 $I(0)$ 序列。

满足弱相关性的时间序列是 $I(0)$ 。如果解释变量和被解释变量都是 $I(0)$ ，则可以直接进行时序回归分析。而对于 $I(1)$ 的序列，通常的做法是通过一阶差分，把它转换成 $I(0)$ 的序列，然后再进行回归分析。

5.2 伪回归

如果贸然对两个 $I(1)$ 序列进行时序回归分析，则有可能落入伪回归（spurious regression）的陷阱。伪回归指的是自变量和因变量之间本来没有任何关系，但由于某种原因，回归分析却显示出它们之间存在统计意义上的相关性，让人误以为两者之间有关联，这种相关性称作伪关系（spurious relationship）。

来看下面这个例子。假设 $\{x_t\}$ 和 $\{y_t\}$ 是两个从零开始的随机游走：

$\begin{array}{rll} x_0&=&0\\ x_t&=&x_{t-1}+a_t,\\ y_0&=&0\\ y_t&=&y_{t-1}+e_t,\\ \end{array}$

其中 $a_t$ 和 $e_t$ 是两个独立的白噪声，满足 $\mathcal{N}(0,1)$ 。由上述定义可知， $\{x_t\}$ 和 $\{y_t\}$ 两个时间序列也是相互独立的。然而，如果我们考虑回归模型 $y_t=\beta_0+\beta_1x_t+u_t$ 会怎样呢？以下给出了一个随机的例子。从 $\{x_t\}$ 和 $\{y_t\}$ 的时间序列图中不难看出，两者似乎高度相关，而回归系数 $\hat\beta_1$ 的 t-statistic 更是超过 13。

然而事实是，by design 这两个序列之间是相互独立的。那么，下面这种解释有没有可能：“由于噪声，这两个序列之间相互独立或许是假设检验中的小概率事件”？如果这个解释成立，那么如果我们进行大量的随机模拟，并以 2.0 作为 t-statistic 绝对值的阈值，那么应该仅在 5% 的随机模拟中看到两者的相关性。不幸的是，模拟结果否决了上述猜想。在模拟的 500 次实验中，t-statistic 绝对值超过 2.0 的情况出现比例超过 70%（下图展示了 t-statistic 绝对值的分布）显然，回归模型所发现的二者之间的关系是虚假的。这个现象最初被 Granger and Newbold (1974) 发现，他们将其称为伪回归。

当我们用 $y_t$ 对 $x_t$ 回归时，究竟发生了什么呢？对于模型 $y_t=\beta_0+\beta_1x_t+u_t$ 而言，在原假设 $\beta_1=0$ 下有 $y_t=\beta_0+u_t$ 。由于 $\{y_t\}$ 是从零开始的随机游走，因此原假设成立意味着 $\beta_0=0$ 且 $u_t=y_t=\sum_{j=1}^t e_j$ 。换言之，在原假设下，模型中的 error term $u_t$ 是一个随机游走。显然无论有限样本还是大样本下，这个 error 都不满足 Gauss-Markov 假设。

这个例子说明，在进行回归分析之前，应该首先检验时间序列是否满足平稳性。为此，可以考虑使用 Augmented Dickey-Fuller test。对于给定的时间序列，例如 $\{y_t\}$ ，该 test 考察如下回归模型：

$\delta y_t=\alpha+\lambda y_{t-1}+\delta_1\delta y_{t-1}+\cdots+\delta_{p-1}\delta y_{t-p+1}+e_t.$

在上式中，如果时间序列 $\{y_t\}$ 存在单位根，则 $\lambda = 0$ 。ADF 检验的原假设是 $\lambda = 0$ 、备择假设是 $\lambda < 0$ 。如果 $\{y_t\}$ 满足平稳性，则 ADF 检验统计量应显著为负。因此只有当该统计量小于给定显著性水平的阈值（阈值是负数）时，才能在对应的置信水平下拒绝原假设、接受备择假设（所以可以理解为，检验统计量越负越好）。那么，伪回归现象的存在是否意味着两个 $I(1)$ 时间序列之间注定无法进行回归分析呢？答案也是否定的。这就要请出下一个话题：协整。

6 Cointegration

6.1 Cointegration

考虑两个 $I(1)$ 时间序列 $\{x_{t}\}$ 和 $\{y_{t}\}$ 。有前面的论述可知，一般情况下，这两个序列的线性组合依然是一个 $I(1)$ 过程、不满足平稳性。然而，如果存在某个系数，使得 $y_t$ 对 $x_t$ 回归的 error 是一个 $I(0)$ 过程（即满足平稳性），那么就称 $\{x_{t}\}$ 和 $\{y_{t}\}$ 协整（cointegration）。

当协整发生时，这两个序列的随机过程能够抵消掉的原因是它们共享某个共同的长期趋势（共同的因素）。在这种情况下，两个序列才可能发生协整、它们的线性组合才能满足平稳性。协整关系的重要性在于它允许人们使用非平稳数据进行回归分析，同时获得有意义的经济解释和预测。当我们有两个序列时，可以通过 Engle-Granger 两步检验来检验协整；而当研究对象为多个时间序列时，则可以使用 Johansen 检验。为了简单起见，以下通过一个例子介绍 Engle-Granger test。

6.2 Engle-Granger Test

对于两个 $I(1)$ 序列 $\{x_{t}\}$ 和 $\{y_{t}\}$ ，Engle-Granger 两步法十分简单直观：

Step 1：用 $y_t$ 对 $x_t$ 回归： $y_t=\beta_0+\beta_1 x_t+u_t$ ，并得到残差 $\hat u_t$ 。
Step 2：对残差 $\hat u_t$ 进行“ADF”检验，考察其是否满足平稳性。这里之所以在 ADF 上加引号，是因为原始 ADF 是检验单一时间序列是否满足平稳性的，而此处我们的 $\hat u_t$ 是两个 $I(1)$ 回归的残差，因此在检验 $\hat u_t$ 时使用的检验统计量的 critical values 和一般的 ADF 检验稍有区别。为此，应该使用 Phillips and Ouliaris (1990) 给出的 critical values。

下面就用一个例子来介绍一下。我们研究的对象是 AUDUSD 和 NZDUSD 这两个 forex rates，前者是澳大利亚元对美元的汇率，后者是是新西兰元对美元的汇率。首先，我们使用 ADF 检验来确认这两个时间序列本身都是 $I(1)$ 。结果（下表）显示，对于这二者，它们的原始序列都不满足平稳性，而一阶差分均满足平稳性，因此它们都是 $I(1)$ 。

接下来，进行 Engle-Granger Test。结果显示，回归模型的残差的 ADF 检验拒绝了原假设（p-value = 0.018），意味着残差满足平稳性，因此 AUDUSD 和 NZDUSD 协整。通过绘制残差（下图），我们也确实可以看到，它在一定的区间内平稳运行，呈现出均值回复的特性。

利用残差的均值回复特性，我们可以构造这两个汇率的配对交易策略。其大体思路是：

当残差的 Z-Score 大于上阈值时，建立做空头寸，做空残差。
当残差的 Z-Score 小于下阈值时，建立做多头寸，做多残差。
当残差的 Z-Score 回到均值时，平仓。

以下给出了 1 作为阈值时的回测结果。

最后想要强调的是，这个例子仅仅是为了说明协整在金融市场实际应用中的作用。需要特别注意的是，在上面的回测中，构造协整模型的实证区间和回测的实证区间是一样的，因此对于构造策略而言，在估计回归系数 $\beta$ 时存在 look-ahead bias。在实际应用中，应使用滚动窗口和 PIT 数据来进行样本外回测。

6.3 统计推断

即便暂时把 look-ahead bias 的问题放到一边，在上面构造协整的例子中，另一个需要我们关心的问题是 $\hat\beta$ 的统计推断问题（因为我们是要依赖它构造残差/价差，从而构造交易策略）。一般来说，即使 $\{u_t\}$ 是均值为零的 $I(0)$ ，但它通常有自相关性（ $y_t$ 和 $x_t$ 之间的协整并不限制 $\{u_t\}$ 的序列相关性）。尽管这并不影响估计量的一致性，但由于 $\{x_t\}$ 和 $\{y_t\}$ 是 $I(1)$ ，因此常见的统计推断过程并不适用，即 OLS 不是渐近正态分布的， $\hat{\beta}$ 的 t-statistic 也并不满足近似的 t 分布。

为了解决这个问题，我们可以通过一定的变换，构造新的 error term。考虑到 $x_t$ 是 $I(1)$ ，严格外生性要求 error 和 $\Delta x$ 不相关（ $\forall t, s$ ）。因此，我们可以围绕 $t$ 把 $u_t$ 写成如下形式：

$u_t = \eta + \phi_0 \Delta x_t + \phi_1 \Delta x_{t-1} + \phi_2 \Delta x_{t-2} + \gamma_1 \Delta x_{t+1} + \gamma_2 \Delta x_{t+2} + e_t,$

其中前后个考虑两期仅仅是示例。通过上述构造，我们希望新的 error $e_t$ 与式中的每个 $\Delta x_s$ 都不相关。此时，原始的回归模型变为：

$\begin{array}{rll} y_t &=& \alpha_0 + \beta x_t + \phi_0 \Delta x_t + \phi_1 \Delta x_{t-1}\\ && + \phi_2 \Delta x_{t-2} + \gamma_1 \Delta x_{t+1} + \gamma_2 \Delta x_{t+2}\\ && + e_t. \end{array}$

上述变换的核心是，保证了 $x_t$ 的回归系数依然是 $\beta$ ，且通过构造 $x_t$ 在变换之后的模型中现在是严格外生的，因此可以用常规方法对 $\hat\beta$ 进行统计推断。因此，通过添加 $\Delta x_t$ 解决了 $x_t$ 和 $u_t$ 之间的任何同时内生性问题，而基于上述模型得到的估计量也被称为 leads and lags estimator。在实际中，需要包含多少 leads 和 lags 项是一个 empirical choice：每当多添加一项，我们就会失去一个观测样本。很多时候，这个代价这对于时间序列分析而言也许非常昂贵。最后，在新的回归模型中，error $e_t$ 依然可能存在自相关性。为此，可以考虑本文第 3 节介绍的方法进行处理或修正。

7 Error Correction Model

构筑在协整关系之上，误差修正模型（Error Correction Model，ECM）是处理非平稳序列的另一个重要工具。协整分析揭示了多个时间序列之间的长期均衡关系，而误差修正模型则希望在此基础上同时捕捉短期动态和长期均衡之间的平衡。

为此，我们从短期动态模型出发：

$\Delta y_t = \alpha_0 + \alpha_1 \Delta y_{t-1} + \gamma_0 \Delta x_t + \gamma_1 \Delta x_{t-1} + u_t,$

其中 $\Delta y_t$ 和 $\Delta x_t$ 分别表示 $y_t$ 和 $x_t$ 的一阶差分，捕捉了它们的短期波动。当然，我们也可以不考虑滞后项，从而进一步简化该模型：

$\Delta y_t = \alpha_0 + \gamma_0 \Delta x_t + u_t.$

然而，这个模型没有考虑二者之间的长期均衡关系。如果它们之间满足协整，那么可以在上述模型中引入 $s_{t-1} = y_{t-1}- \beta_0- \beta_1 x_{t-1}$ ，表示长期均衡关系的偏离，并得到误差修正模型（注意新引入的 term 的时间 index 是 $t-1$ ）：

$\Delta y_t = \alpha_0 + \gamma_0 \Delta x_t + \delta s_{t-1} + u_t.$

将 $s_{t-1} = y_{t-1}- \beta_0- \beta_1 x_{t-1}$ 带入，模型最终可以写为：

$\Delta y_t = \alpha_0 + \gamma_0 \Delta x_t + \delta (y_{t-1}- \beta_0- \beta_1 x_{t-1}) + u_t,$

其中 $\delta$ 是误差修正项的系数。在该模型中， $\gamma_0 \Delta x_t$ 刻画了 $x_t$ 对 $y_t$ 的短期影响，即当期 $x_t$ 的变化对当期 $y_t$ 的变化的影响； $\delta s_{t-1}$ 则刻画了系统对长期均衡偏离的调整过程。当 $\delta < 0$ 时，系统会朝向均衡状态调整。换句话说，如果 $y_{t-1}$ 和 $x_{t-1}$ 偏离了长期均衡关系，那么该项会促使 $y_t$ 在未来逐步回归均衡状态，调整速度由 $\delta$ 决定。最后，如果我们考察 AUDUSD 和 NZDUSD 之间的 ECM 模型结果，则可以看到长期均衡关系的回归系数 $\delta$ 确实小于零，且高度显著。

8 结语

本文是对《写给你的时间序列分析》系列的一个必要补充。从本文 cover 的内容可知，时间序列回归分析并非是简单地将两个序列进行回归处理，而是一个需要精心设计和仔细考量的过程。每一步都涉及到对数据特性的深入理解和对模型假设的严格检验。从平稳性检验到误差修正模型的构建，每个环节都至关重要。只有在确保数据满足必要条件的前提下，才能进行可靠的回归分析，避免伪回归和误导性的结论。唯有通过系统的分析方法和严谨的统计推断，我们才有望揭示时间序列数据中的真实关系。

参考文献

Granger, C. W. J. and P. Newbold (1974). Spurious regressions in econometrics. Journal of Econometrics 2(2), 111–120.
Wooldridge, J. M. (2012). Introductory Econometrics: A Modern Approach (5th Ed.). South-Western, Cengage Learning.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

合格投资者声明

写给你的金融时间序列分析：回归篇