很 Wooldridge 风格的计量经济学笔记

发布时间:2025-06-23  |   来源: 川总写量化

作者:石川
摘要:本文系统梳理《Introductory Econometrics》的截面回归知识点。


本文梳理 Wooldridge 的神书 Introductory Econometrics: A Modern Approach (5th Ed) 中的 Part I: Regression Analysis with Cross-Sectional Data 的内容。对于量化投资、因子投资以及实证资产定价而言,截面回归的作用怎么强调都不过分。

我把本文命名为《很 Wooldridge 风格的计量经济学笔记》。

Let's get started.

1. 一元回归

一元线性回归(simple linear regression)用于检验单个自变量(解释变量)与因变量(被解释变量)之间的关系。尽管多元回归在实际应用中更为常见,但为了完整性,这里先介绍一元线性回归。一元线性回归模型假设,在总体中,自变量  和因变量  满足以下关系:



其中  和  是未知参数, 是误差项。我们可以使用普通最小二乘法 (OLS) 来估计参数。然而,人们关心在何种条件下,OLS 是无偏且一致的。以下是一元回归的 Gauss-Markov 假设:

1. Linear in parameters:模型正确描述了总体中  和  的关系,即模型没有设定错误。

2. Random sampling:从总体中随机抽取了一个大小为  的样本,这通常意味着样本是随机的。

3. Sample variation in the explanatory variable:样本中解释变量的取值不是完全相同的,即  并非全都相同。

4. Zero conditional mean:误差项  在给定解释变量  的条件下期望为零,即 。这一条件意味着  与  不相关(注意,这比  更强,因为协方差只描述线性关系。从  可以推出 ,但反之不成立)。如果这一条件不满足,通常表明模型设定存在问题,此时 OLS 估计量是有偏的。

5. Homoskedasticity:在给定  的条件下,误差项  的方差是常数,即 ,其中  也是总体的未知参数,需要通过估计得到。

值得一提的是,只要前四个假设成立,OLS 就是无偏的。同方差性假设是否成立并不影响 OLS 的无偏性。然而,如果存在异方差性,OLS 估计量的 standard error 将不准确,从而导致检验统计量不可靠,需要采用其他方法来处理异方差性。

对于给定的观测样本 ,OLS 的拟合值为:



其中  和  是未知参数  和  的 OLS 估计值。 与  之间的差值  称为残差。OLS 的目标是最小化样本中所有观测值的残差平方和:



这个目标函数可以通过 first order conditions 求解,得出:



其中  和  分别是  和  的样本均值。需要注意的是, 的表达式实际上是  和  的样本协方差除以  的样本方差。

OLS 在样本数据上具有以下数学性质:

1. 所有残差  的总和为零。这直接来源于关于  的一阶条件。因此, 的均值与  的均值相同,即 .

2. 残差与任何解释变量(在一元回归中只有一个 )的样本协方差为零。这直接来源于关于  的一阶条件。

此外,还可以证明拟合值  和残差  的样本协方差也为零。从  和  出发,可以定义回归中的几个常见量:

Total sum of squares (SST),下式中  为  的均值,它也是  的均值:


Explained sum of squares (SSE):


Residual sum of squares (SSR):


简单推导可知 SST = SSE + SSR,并可以定义常说的 goodness-of-fit,即 R-squared():



R-squared 的大小不随对  和  做尺度缩放而改变。此外,R-squared 也是一个总体的概念,总体的 R-squared 等于 ;而上述 OLS 计算的 R-squared 是它的一个有偏估计。这是因为在样本 R-squared 计算中,我们用  和  分别估计  和 (分母上两个  抵消了),但是它俩都是有偏估计;无偏估计是  和 。把这两个无偏估计带回到样本 R-squared 就得到调整后 R-squared,即 Adjusted R-squared:



不幸的是,上述调整后 R-squared 也不是总体 R-squared 的无偏估计,这是因为两个无偏估计相除并不能得到另一个无偏估计。不过,由于对自由度进行了惩罚,Adjusted R-squared 通常被拿来考察一个新的解释变量是否应该加到模型里。一个新的解释变量加到模型之后,只有当它的回归参数的  绝对值大于 1 时,才不会造成 Adjusted R-squared 的降低。

为了进行统计检验,除了得到 ,还需要知道其方差。对于一元回归,我们往往更关心  的回归系数:



其中 。由于总体的  是未知的,只能对它进行估计。其无偏估计为:



将上面开根号得到 ,这个值被称作 standard error of the regression(SER)。由于不知道  而是对它进行了估计,因此将估计值代入 ,再对其开方,便得到  的 standard error,简记为 s.e.:



2. 多元回归

多元回归(multiple regression)是同时考虑多个解释变量的回归分析模型。该模型的优势在于,它能够在控制其他变量的影响后,研究某个特定变量  与因变量  之间的关系。为了说明这一点,我们以两个解释变量  和  为例,多元线性回归模型可以表示为:



假设我们关注  与  的关系。在模型中, 的回归参数为 ,其中  是将  作为被解释变量、将  作为解释变进行回归得到的残差。这个关系说明,在多元回归中, 和  之间的关系是在把  的影响排除了(即  是控制变量被控制了)之后得到的。

对于一般情况,假设有  个解释变量,总体的多元线性回归模型可以表示为:



在多元回归中, 的计算方法与一元回归相同。此外, 还有另一种解释:它是  与  的相关系数的平方。此外,多元回归模型通常用矩阵形式表示:

  •  维的因变量向量;
  •  维解释变量矩阵,其中第一列为截距项(全为 1 的向量);
  •  维回归系数向量;
  •  维误差向量。

回归模型的矩阵形式为:



OLS 估计量为:



和一元回归类似,多元回归模型的 Gauss-Markov 假设如下:

1. 假设 1:总体中变量之间的关系是线性的。
2. 假设 2:样本是从总体中随机抽取的。
3. 假设 3:所有解释变量(包括全是 1 的截距列向量)之间不能有完美的共线性(这就是为什么在考虑 category 变量的时候,必须 drop 一个默认的当 base,否则就会和全 1 的列向量共线性了)。
4. 假设 4:总体残差  和全部  个解释变量  满足条件零期望,即:
5. 假设 5:同方差性。

Again,只要前四个假设成立,OLS 估计量就是无偏的。当这五个假设全部满足时,OLS 估计量是最佳线性无偏估计量(BLUE)。在上述五个假设下,回归系数的样本方差为:



其中:

  •  的方差(需要估计);
  • :将  对其他  个解释变量回归后的 

这一公式表明:

  • 当  的变化越大时, 的方差越小;
  • 如果  与其他解释变量高度相关, 的方差将会很大。

这解释了为什么高相关性是不受欢迎的。尽管它不会影响  的无偏性,但会增加其方差,从而影响统计推断。换言之,高方差会使估计结果不够可靠。另外,模型中包含过多无关变量也不会影响 OLS 估计量的无偏性,但会增加其方差。

由于  未知,因而需要通过样本数据进行估计。其无偏估计为:



其中  是残差。将该估计值代入回归系数方差的公式,并取平方根,便得到回归系数的 standard error:



3. 统计推断

3.1 检验单个解释变量

为了进行统计推断,我们需要构造检验统计量,而这需要对数据的分布作出假设。假设误差  服从正态分布,即 。即使这一假设并不完全成立,在样本量足够大的情况下,中心极限定理能够确保渐近正态性。

Gauss-Markov 假设加上上述第六个假设的被称为经典线性模型(Classical Linear Model, CLM)假设。在 GLM 假设下,OLS 估计量是所有估计量(包括线性和非线性估计量)中方差最小的无偏估计量。在正态分布假设下,OLS 估计量  服从正态分布:



如果我们知道  的方差(这需要已知误差项  的方差 ),则可以得到:



尽管不知道  的方差,但我们可以使用其 standard error 平方来替代。在这种情况下,右侧的正态分布变为自由度为  的  分布:



在金融市场相关的问题中,原假设通常是 。将其代入上式:



因此,无论是一元回归还是多元回归,如果我们的目标是检验某个解释变量  对因变量  的预测能力是否显著,可以使用上述检验统计量来判断其统计显著性。在样本量足够大的情况下,若 -statistic 的绝对值大于 2.0,则可以认为该变量在双尾检验下的 5% 显著性水平上是显著的。

3.2 同时检验多个解释变量

有时,我们希望检验一组解释变量是否共同对因变量  有预测作用。这可以通过  检验来实现。假设有  个解释变量,并希望检验其中  个是否能够预测 。该检验的原假设为:这  个变量联合对  没有预测能力(注意:即使  检验表明其中一些变量是显著的,也可能整体不显著)。 检验的具体步骤如下:

第一步:将  对全部  个解释变量和截距项回归,得到残差平方和(SSR),记为 (下标  表示未受限模型)。

第二步:将  对剩余的  个解释变量和截距项回归,得到残差平方和(SSR),记为 (下标  表示受限模型)。

第三步根据上述结果,构造 -statistic(自由度为  和 ):


由于  不会小于 ,因此 -statistic 总是非负的。 检验的核心是评模型中加入这  个变量(以牺牲自由度为代价)是否显著减少了残差平方和。如果减少幅度较大,则表明这  个解释变量联合对  有显著预测作用(即使我们不知道具体是哪一个或哪些变量在起作用);如果减少幅度很小且不足以弥补自由度的损失,则表明这  个解释变量联合起来对  没有显著预测作用。

除了  检验外,拉格朗日乘数(LM)检验也可以用来检验多个解释变量的联合显著性。其步骤如下:

第一步:将  对  个解释变量(以及截距项)回归,得到残差 

第二步:将残差  对所有  个解释变量(包括截距项)回归,得到 R-squared,记为 

第三步LM-statistic 通过将样本量  乘以  构造,且服从自由度为  的卡方分布:



最后,将 LM 统计量与卡方分布  的临界值  进行比较。如果 ,则拒绝原假设。无论使用  检验还是  检验,受限模型和未受限模型中的观测值必须保持一致。否则,F 检验和 LM 检验都是无效的。

3.3 预测误差

一旦建立了回归模型,给定一组新的解释变量值,便可以计算出其预测值(拟合值)。然而,我们还必须考虑它与真实值之间的误差。令  代表一个新的观测点。为了计算它的预测值及对应的方差,我们可以利用原始样本数据  构造以下回归方程:



在这个回归模型中,截距项  表示该新观测点的预测值,而回归分析还会给出 。新观测点的预测误差  不仅来源于  的估计误差,还来源于 。虽然  未知,但可以用其无偏估计值来替代:



然后,预测误差  的 standard error 为:



4. 哑变量

在回归分析中,为了研究不同类别之间的差异(例如,男性与女性、白人与黑人),一个常见的做法是引入哑变量(Dummy Variables)。在金融市场中,哑变量可以用来区分来自不同行业的股票或不同板块的商品。

添加哑变量的一般方法是将它们直接作为解释变量引入模型,而不考虑与其他解释变量的交互项。这种方法假设不同类别在回归模型中的截距不同,但其他解释变量的斜率在各类别之间保持不变。例如,回归结果可能表明某一行业的股票平均收益率自然高于另一行业。

假设共有  个类别,此时定义一个具有  个取值的单一分类变量来解释回归结果并无意义。通常的做法是用  个哑变量(每个变量取值为 0 或 1)来表示这些类别。之所以用  而不是  个,是为了避免多重共线性。如果使用全部  个哑变量,它们会与截距项完全线性相关,从而违反线性回归的假设。

此外,我们可能还对哑变量(如行业)与其他解释变量的交互项感兴趣。在回归中将这些交互项作为解释变量,可以让回归系数反映不同类别之间的回归斜率差异,从而提供新的见解。

在实践中(根据经验),在回归中检验交互项的显著性时应该谨慎。虽然可以使用  检验来检验交互项是否显著,但有时我们更倾向于使用  检验来检验哑变量和交互项是否联合显著。例如,考虑以下包含哑变量  和解释变量的回归方程:



我们可以将其视为未受限模型,然后使用前文提到的  检验来检验  和  是否联合显著。在此例中,受限模型排除了哑变量  和交互项 ,因此自由度为 -statistic 的计算公式与之前一致。

有时,对于同一个回归模型,我们希望检验不同类别的观测样本之间是否存在统计显著差异(包括截距差异)。例如,在商品期货市场中,农业产品与工业金属之间的回归系数是否存在显著差异。这可以通过 Chow 检验来实现。具体步骤如下:

第一步:对两类观测样本分别进行 OLS 回归,得到两个残差平方和(SSR),分别记为  和 。将这两个 SSR 相加得到未受限模型的残差平方和:

第二步:将两类观测值合并,进行一次整体的 OLS 回归。这称为受限模型,其残差平方和记为 

第三步:利用上述结果,Chow 检验的 -statistic 为:



Chow 检验的原假设是:两个模型之间的所有回归系数都没有差异。这一假设通常过于严格,因为它甚至不允许截距存在差异。在实际应用中,人们通常只关心解释变量的回归系数在不同类别之间是否存在差异。为此,可以对 Chow 检验进行适当修改。在第二步的受限模型中加入一个哑变量,用于表示两类观测值的截距差异。使用修改后的受限模型计算 ,并按以下公式计算 -statistic:



注意,由于在受限模型中添加了一个哑变量,自由度减少了 1。

5. 异方差性

5.1 检验异方差

前文中,我们假设回归模型的误差项具有同方差性。然而,在实际问题中,人们经常遇到异方差性(Heteroskedasticity),即误差项的方差不是常数。异方差性是金融收益率数据的一个常见特征。

异方差性意味着误差项的方差是解释变量的函数,而不是一个常数。因此,为了检验异方差,可以使用 OLS 获取残差,然后将残差的平方作为因变量对解释变量回归,以检查解释变量是否共同显著影响残差的平方。这种方法被称为 Breusch-Pagan(BP)检验,具体步骤如下:

第一步: 使用  对解释变量  回归,得到残差 

第二步:将残差平方  作为因变量,对解释变量(包括截距项)回归,得到 R-squared,记为 。该回归模型为:



第三步:原假设  是解释变量对残差平方的变化没有共同显著影响,即 。该原假设意味着同方差性。为了检验这一假设,可以构造 -statistic 或 -statistic:



第四步:根据上述统计量,决定是否拒绝原假设。如果拒绝原假设,则表明存在异方差性。

Breusch-Pagan 检验是检测回归模型中异方差性的常见方法。通过识别残差方差是否与解释变量相关,人们能够更好地理解数据的结构,并对模型进行必要的调整。在处理金融数据时,它有助于提高模型的可靠性。

5.2 处理异方差

异方差性不会影响 OLS 估计量的无偏性或一致性,但会影响 efficiency。因此,我们无法直接使用 OLS standard error 进行统计推断。为了解决这个问题,可以使用异方差稳健推断(Heteroskedasticity-Robust Inference)。这种方法的优点在于,人们无需已知异方差性的具体形式(哪怕误差实际上是同方差的,该方法也能正常工作)。换句话说,无论异方差的形式如何,该方法都可以用来计算 standard errors。

首先考虑一元回归模型:


 的方差为:



其中 。对上式开平方可以得到  的 standard error。然而,问题在于总体异方差性  是未知的。幸运的是,可以利用样本残差 ,将  替换为 



这就是 heteroskedasticity-robust standard error,它适用于任何异方差性形式。这种方法最早由 White (1980) 提出,时至今日仍被广泛应用于实证资产定价研究之中。

多元回归的情况与一元回归类似。考虑以下多元回归模型:



在未知异方差性形式下,回归系数  的方差估计为:



其中  是将解释变量  对其他解释变量(包括截距)回归后得到的第  个观测样本的残差, 是该回归的残差平方和。对上述方差估计开平方后,得到 heteroskedasticity-robust standard error:



利用该 standard error,可以对回归系数进行  检验。由此得到的 -statistic 称为 heteroskedasticity-robust -statistic。

既然 heteroskedasticity-robust standard error 适用于任何形式的异方差性,甚至在同方差的情况下也适用。那么,是否意味着我们可以无脑使用这种方法呢?答案是否定的。原因在于:如果误差是同方差的,则回归系数的检验统计量在任何样本量下都服从  分布。然而,异方差稳健 -statistic 仅在样本量足够大时才有效。

最后,上述调整仅修改了回归系数的 standard error,从而使我们能够进行正确的  检验。然而,它仅用于检验单个回归系数的显著性。而当我们希望通过 F 或者 LM 检验来检验  个解释变量是否联合显著时,这两种检验也因为异方差而需要相应调整。以下以异方差稳健 LM 检验为例说明。

假设我们有一个包含  个解释变量的多元回归模型,希望检验其中  个变量是否联合显著:



该模型对应的受限模型(仅包含  个解释变量和截距项)为:



LM 检验的步骤如下:

1. 估计对受限模型,得到残差,记为 

2. 对  个解释变量中的每一个,用它对剩余  个解释变量回归(也就是将其作为受限模型的因变量),得到残差序列,记为 

3. 对每个  和 ,将对应观测值相乘,得到新的向量 。因此,我们得到  个新向量:

4. 将一个全为 1 的向量作为因变量,对上述  个向量  回归(注意,此时回归模型不包含截距项),得到残差平方和,记为 

5. 最后,异方差稳健 -statistic 为 , 其中  是观测值的数量。该统计量服从自由度为  的  分布。通过该统计量,可以判断是否拒绝原假设。




本文说了很多,其实想要传达的是,量化研究从来都是一个 carefully designed process。到底基于什么样的假设,到底用怎样的模型,需要结合金融知识先验和靠谱的统计检验来决定。谨慎设计模型(如移除无关变量)和使用稳健的统计方法(如异方差稳健回归)可提高回归分析的可靠性。


免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。