写给你的金融时间序列分析:回归篇
发布时间:2024-06-04 | 来源: 川总写量化
作者:石川
摘要:时间序列回归分析并非是简单地将两个序列进行回归处理,而是一个需要精心设计和仔细考量的过程,每一步都涉及到对数据特性的深入理解和对模型假设的严格检验。
0 引言
本文继续拓展《写给你的时间序列分析》系列。系列的前序文章《写给你的金融时间序列分析:基础篇》、《写给你的金融时间序列分析:初级篇》、《写给你的金融时间序列分析:进阶篇》、《写给你的金融时间序列分析:应用篇》和《写给你的金融时间序列分析:补完篇》主要是针对单一时间序列的检验和建模。本文则介绍多个时间序列之间的回归问题。
在时序回归模型中,最简单的模型是静态模型(static model):
在该模型中,“静态”意味着模型考察的是
式中
不同于截面回归,时序回归的难点在于各种(自、协)相关性的处理:包括解释变量的自相关性、随机扰动(error)的自相关性;前、后不同期解释变量和 error 的协相关性等。因此,在通过回归来分析时间序列时需要格外小心,避免得到错误的统计推断结果。本文的主要内容包括,有限样本下 OLS 估计量的性质、大样本下 OLS 估计量的渐近性质、error 自相关性检验和应对、error 异方差性问题、伪回归、协整及其推断以及误差修正模型。本文的 technique 部分主要参考了 Wooldridge 的神书 Introductory Econometrics: A Modern Approach,特此说明。
1 Finite Sample Properties of OLS
在有限样本下,OLS 的核心假设包括:
假设一(Linear in parameters):总体中
和 满足线性关系。 假设二(No perfect collinearity):解释变量之间不存在完美的共线性。
假设三(Zero conditional mean):
。这意味着所有解释变量都是外生的,即任何解释变量,在任何时刻都和 不相关。
为了加强理解,我们再对假设三做一些说明。首先,这个假设中最重要的就是
除上述三条假设外,再考察下面两个假设:
假设四(Homoskedasticity):同方差,即
假设五(No serial correlation):
。这条假设是关于 error 自相关性的。它对解释变量的自相关性不做任何假设。(解释变量存在自相关性也是时序回归模型的特点之一。)
上述五条假设正是时序回归模型的 Gauss-Markov 假设。当这些假设均成立时,
其中
其中
2 Asymptotic Properties of OLS
2.1 平稳性和弱相关性
对于绝大多数实际问题而言,前一节的 Gauss-Markov 假设都太严苛了,难以满足(特别是解释变量严格外生)。因此,比起考察有限样本下 OLS 估计量的特性外,我们自然更关心在大样本下 OLS 估计量的渐近性质。不过讽刺的是,对于时序回归模型而言,我们往往很难有足够多的样本。(比如用月频收益率数据检验一个多因子模型,那么每年才有 12 个样本,50 年也才有 600 个样本。)不幸的是,时序问题的大样本分析比截面数据分析复杂得多。我们需要格外小心数据的相关性。为此,我们首先来回顾平稳性和弱相关性的概念。
如果随机过程
对于一个平稳序列,如果
2.2 渐近性质
一旦平稳性和弱相关性得到满足,大数定律和中心极限定理就可以适用,因此在大样本下可以获得 OLS 估计量的一些良好性质,从而帮助分析
假设一(Linear in parameters):这一条和前一节中的假设一相同。除此之外,我们假设
满足平稳性和弱相关性。 假设二(No perfect collinearity):解释变量之间不存在完美的共线性。
假设三(Zero conditional mean):
。相比于前一节中的假设三,此处把它放松到 期 和解释变量 的独立性了。相比于严格外生,这一条要弱很多,只限制同时期的相关性,而对于 和任何非 时刻的解释变量之间的关系不做任何限制。当平稳性满足时,如果 对某一期 成立,则它对所有的 都成立。然而,这条假设下允许 期的 影响未来的解释变量 。
当以上三条假设均满足时,OLS 估计量是一致的,即
接下来,和本文第 1 节一样,再加上假设四和假设五:
假设四(Homoskedasticity):同方差,即
假设五(No serial correlation):
。
当上述五个假设都满足时,OLS 估计量在大样本下表现出很好的渐近性质:(1)OLS 估计量满足渐近正态分布;(2)所有相关的 t-statistic 和 F-statistic 都是渐近成立的;(3)OLS 是渐近有效的,即它的方差相比于其他 estimators 的方差更低。
3 Error Serial Correlation
由以上介绍可知,error 存在自相关并不影响 OLS 估计量的无偏性。然而,它会影响
3.1 自相关性检验
一般来说,我们可以检验 error 是否满足 AR(1) 过程。此时,取决于解释变量是否严格外生,又分为两种情况。首先假设解释变量严格外生,则可以通过如下的步骤检验:
Step 1: 用
对 时序回归,得到残差序列 。 Step 2: 用
对 时序回归,即 。 Step 3: 考察回归系数
的 t-statistic,并进行统计推断。如果拒绝原假设 ,则说明 error 存在自相关性。
值得一提的是,上述第二步中的自回归模型中假设了
除了上述方法外,另一个常见的检验是 Durbin-Watson Test(DW Test,比如 Python 的 OLS 回归结果会返回 DW test 的值)。该统计量为:
通常情况下,
接下来看看解释变量不是完全外生的情况。在这种情况下,上述检验不再有效(及时在大样本下也是如此),因此不能使用。此时,可以将上述三步走中的第二步改为如下的回归模型:
即使用
然后,可以使用 F test 检验
3.2 修正 Error 自相关性
如果 error 存在在相关性,我们可以对它进行处理。假设 error 是一个 AR(1) 过程且
由上述模型可知
上述变形后得到的估计量为 GLS 估计量,它是 BLUE,因此 t test 和 F test 都可以正常使用。GLS 估计量中假设
Step 1: 用
对 时序回归,得到残差序列 。 Step 2: 用
对 时序回归,即 。 Step 3: 考虑如下回归模型(注意:该模型没有截距项):
其中 ; ; ; ; ; 。
在这个回归模型中,t test 和 F test 都在大样本下是渐近有效。上述的模型看上去如此复杂是因为
无论
3.3 Serial Correlation-Robust Inference for OLS
考虑如下时序回归模型:
为了方便讨论,假设我们关注
Step 1:进行 OLS 回归,得到
的 standard error,记为“ ”,同时得到 以及残差序列 。 Step 2:以
为被解释变量(因为我们关心的是 ),以其他 为自变量,构造如下回归模型: Step 3:利用 OLS 得到残差序列
。用该序列和 序列相乘得到新的序列
Step 4:选定希望考虑的自相关 lags
,计算变量 (有没有想起 Newey-West):
Step 5:使用以下公式得到
的 serial correlation-robust standard error:
通常情况下,如果 error 确实存在自相关性,那么上述得到的 standard error 会大于 OLS 的 standard error。当 error 自相关非常严重时,使用上述方法得到的 standard error 往往非常大,导致回归系数不再显著。在实践中,如果能够合理的认为解释变量是完全外生的话,则建议使用 FGLS;反之,如果我们对解释变量的外生性存在非常强烈的疑问时,可以选择 OLS + serial correlation-robust standard error。
4 Heteroskedasticity
异方差意味着 error 的波动随
Breusch-Pagan test 的步骤总结如下:
Step 1:通过 OLS 来估计原始回归模型,得到残差序列
: Step 2:使用
作为被解释变量,并考虑如下回归模型,计算其 R-squared,记为 : Step 3:构建 F-statistic 或 LM-statistic 如下:
Step 4:根据 F-statistic 或 LM-statistic 判断是否拒绝原假设(原假设是没有异方差)。如果存在异方差,那么它虽然不会影响回归系数的无偏性,但是会影响 standard errors,因此应使用 heteroskedasticity-robust standard errors。
5 伪回归
5.1 I(1) 序列
从上面的论述可知,大样本下 OLS 满足良好渐近性质的关键条件是时间序列满足平稳性和弱相关性。对于有些时间序列,其前后满足强相关性(比如股票价格),这时就应该进行必要的处理。不满足弱相关性的一个例子正是随机游走(Random Walk):
随机游走是一个特殊的 unit root process。更一般的情况中,
满足弱相关性的时间序列是
5.2 伪回归
如果贸然对两个
来看下面这个例子。假设
其中
然而事实是,by design 这两个序列之间是相互独立的。那么,下面这种解释有没有可能:“由于噪声,这两个序列之间相互独立或许是假设检验中的小概率事件”?如果这个解释成立,那么如果我们进行大量的随机模拟,并以 2.0 作为 t-statistic 绝对值的阈值,那么应该仅在 5% 的随机模拟中看到两者的相关性。不幸的是,模拟结果否决了上述猜想。在模拟的 500 次实验中,t-statistic 绝对值超过 2.0 的情况出现比例超过 70%(下图展示了 t-statistic 绝对值的分布)显然,回归模型所发现的二者之间的关系是虚假的。这个现象最初被 Granger and Newbold (1974) 发现,他们将其称为伪回归。
当我们用
这个例子说明,在进行回归分析之前,应该首先检验时间序列是否满足平稳性。为此,可以考虑使用 Augmented Dickey-Fuller test。对于给定的时间序列,例如
在上式中,如果时间序列
6 Cointegration
6.1 Cointegration
考虑两个
当协整发生时,这两个序列的随机过程能够抵消掉的原因是它们共享某个共同的长期趋势(共同的因素)。在这种情况下,两个序列才可能发生协整、它们的线性组合才能满足平稳性。协整关系的重要性在于它允许人们使用非平稳数据进行回归分析,同时获得有意义的经济解释和预测。当我们有两个序列时,可以通过 Engle-Granger 两步检验来检验协整;而当研究对象为多个时间序列时,则可以使用 Johansen 检验。为了简单起见,以下通过一个例子介绍 Engle-Granger test。
6.2 Engle-Granger Test
对于两个
Step 1:用
对 回归: ,并得到残差 。 Step 2:对残差
进行“ADF”检验,考察其是否满足平稳性。这里之所以在 ADF 上加引号,是因为原始 ADF 是检验单一时间序列是否满足平稳性的,而此处我们的 是两个 回归的残差,因此在检验 时使用的检验统计量的 critical values 和一般的 ADF 检验稍有区别。为此,应该使用 Phillips and Ouliaris (1990) 给出的 critical values。
下面就用一个例子来介绍一下。我们研究的对象是 AUDUSD 和 NZDUSD 这两个 forex rates,前者是澳大利亚元对美元的汇率,后者是是新西兰元对美元的汇率。首先,我们使用 ADF 检验来确认这两个时间序列本身都是
接下来,进行 Engle-Granger Test。结果显示,回归模型的残差的 ADF 检验拒绝了原假设(p-value = 0.018),意味着残差满足平稳性,因此 AUDUSD 和 NZDUSD 协整。通过绘制残差(下图),我们也确实可以看到,它在一定的区间内平稳运行,呈现出均值回复的特性。
利用残差的均值回复特性,我们可以构造这两个汇率的配对交易策略。其大体思路是:
当残差的 Z-Score 大于上阈值时,建立做空头寸,做空残差。
当残差的 Z-Score 小于下阈值时,建立做多头寸,做多残差。
当残差的 Z-Score 回到均值时,平仓。
以下给出了 1 作为阈值时的回测结果。
最后想要强调的是,这个例子仅仅是为了说明协整在金融市场实际应用中的作用。需要特别注意的是,在上面的回测中,构造协整模型的实证区间和回测的实证区间是一样的,因此对于构造策略而言,在估计回归系数
6.3 统计推断
即便暂时把 look-ahead bias 的问题放到一边,在上面构造协整的例子中,另一个需要我们关心的问题是
为了解决这个问题,我们可以通过一定的变换,构造新的 error term。考虑到
其中前后个考虑两期仅仅是示例。通过上述构造,我们希望新的 error
上述变换的核心是,保证了
7 Error Correction Model
构筑在协整关系之上,误差修正模型(Error Correction Model,ECM)是处理非平稳序列的另一个重要工具。协整分析揭示了多个时间序列之间的长期均衡关系,而误差修正模型则希望在此基础上同时捕捉短期动态和长期均衡之间的平衡。
为此,我们从短期动态模型出发:
其中
然而,这个模型没有考虑二者之间的长期均衡关系。如果它们之间满足协整,那么可以在上述模型中引入
将
其中
8 结语
本文是对《写给你的时间序列分析》系列的一个必要补充。从本文 cover 的内容可知,时间序列回归分析并非是简单地将两个序列进行回归处理,而是一个需要精心设计和仔细考量的过程。每一步都涉及到对数据特性的深入理解和对模型假设的严格检验。从平稳性检验到误差修正模型的构建,每个环节都至关重要。只有在确保数据满足必要条件的前提下,才能进行可靠的回归分析,避免伪回归和误导性的结论。唯有通过系统的分析方法和严谨的统计推断,我们才有望揭示时间序列数据中的真实关系。
参考文献
Granger, C. W. J. and P. Newbold (1974). Spurious regressions in econometrics. Journal of Econometrics 2(2), 111–120.
Wooldridge, J. M. (2012). Introductory Econometrics: A Modern Approach (5th Ed.). South-Western, Cengage Learning.
免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。