非 Wooldridge 风格的计量经济学延伸

发布时间：2025-07-27 | 来源: 川总写量化

作者：石川
摘要：本文介绍包括 WLS、robust regression 以及 non-parametric regression 在内的计量经济学延伸内容。

前文《很 Wooldridge 风格的计量经济学笔记》梳理了《Introductory Econometrics》中截面回归的知识点。本文介绍包括 WLS、robust regression 以及 non-parametric regression 在内的延伸内容。

让我们从 outliers 说起。

1. Outliers and Influence

1.1 Outliers and Leverage Points

Outliers 和 leverage points 都属于 extreme points：

Outliers 是指相对于其他观测样本，因变量（）的取值异常大或异常小的数据点。它们可能来源于测量误差、数据录入错误或罕见的特殊事件等多种原因，通常远离数据的整体趋势。
Leverage points 是指自变量（）取值组合异常的数据点。这些点在解释变量空间中远离数据分布的中心，因此对拟合回归模型具有“杠杆作用”。

值得一提的是，并非所有 extreme points 都会对回归模型产生影响。以下三个例子展示了 extreme point 可能对回归直线产生的影响。图中红点表示 extreme point，黑色直线表示不包含该样本时的回归模型，红色直线表示包含该样本时的回归模型。

例 1：Outlier

在下例中，随机生成 30 个数据点，并在处添加一个 outlier。下图展示了原始 30 个样本的拟合模型（黑色）以及加入 outlier 后的拟合模型（红色）。Outlier 的存在改变了回归模型的截距。

例 2：非影响性 leverage point

本例在数据集中添加了一个位于的 leverage point。尽管该点在轴上属于极端值，但它对回归直线影响甚微，是否带有 leverage point 的两个模型十分接近。

例 3：有影响力的 leverage point

本例中，数据集新增一个位于的 leverage point。与前例不同，该点显著改变了回归模型，体现了其对模型的影响。此类 leverage points 可导致回归结果偏离真实关系，因此需要特别关注和识别。

1.2 Influential Points 检验：Cook's Distance

为了量化单个观测样本对回归模型的影响，通常使用 Cook's distance (简称 Cook's D) 来衡量。Cook's D 衡量的是在包含和不包含某个观测值时，模型预测值的变化程度。Cook's D 越大，说明该观测值对回归系数估计的影响越大。一般来说，当 Cook's D 大于 1 时，可认为该观测值具有显著影响。

下图（influence plot）通过可视化展示了所有观测值的 Cook's D。图中的圆点大小表示每个观测值的 Cook's D：越大说明该观测值的 Cook's D，对模型的影响越大。

图中，横轴表示每个观测值的 hat value ()，该值衡量的是观测值在解释变量空间中与数据均值的距离。Hat value 是帽子矩阵（hat matrix）的对角线元素：

第个观测值的计算公式如下：

杠杆值的取值范围在 0 到 1 之间。

纵轴表示 studentized residuals。与 standardized residuals 类似，studentized residuals 在标准化时考虑了残差的异质性和观测值的杠杆值。第个观测值的 studentized residual 为：

其中是第个观测样本的残差（即），是该残差的标准误：

其中为回归模型的均方误差。

Studentized residuals 能够衡量某个观测值的残差相对于数据整体变异性的极端程度。它们对于检测 influential points 非常有用。一般而言，studentized residuals 大于或小于时，可以认为该样本是潜在的 influential points。

2. Weighted Least Squares

当回归分析中误差项的方差随观测值发生变化时，就会出现异方差性。通常，可以通过绘制拟合值与残差的散点图来快速识别是否存在异方差。如果残差的分布随着拟合值的变化而扩展或收缩，则可能存在异方差性。

假设误差项协方差矩阵为（假设误差项之间不相关）：

前文《很 Wooldridge 风格的计量经济学笔记》介绍了如何计算异方差稳健标准误。此外，另一种有效应对异方差的方法则是 Weighted Least Squares（WLS）。

2.1 WLS

在 WLS 中，每个观测值的权重与其对应误差项的方差成反比。这种做法通过降低高方差观测值（即误差方差较大观测值）的权重，减小它们对回归结果的影响。

以一元回归为例，WLS 的目标函数为：

其中是第个观测值的权重，权重与各观测值的误差方差成反比，即。（如果真实的不可得，可以用 OLS 残差进行估计。）通过求解该最优化问题易知：

其中和分别为和的加权均值：

对于多元回归模型，其目标函数为：

为求解 WLS 估计量，根据 first order conditions 有：

其中是的第个分量。简化后为：

其中为回归系数个数（包括截距项）。设为主对角线为的对角矩阵，为设计矩阵（每一行为），为的向量，则上述条件的矩阵形式为：

从而可求出 WLS 估计量：

2.2 权重的估计

在进行 WLS 时，各观测值的权重通常与误差项方差成反比。然而，在很多情况下，误差项的真实方差并不可得，需要进行估计。具体步骤如下：

1. 首先进行 OLS 估计：先通过 OLS 得到模型的初始系数和残差。

2. 检验异方差性：例如使用 Breusch-Pagan 检验。

3. 估计权重：若存在异方差性，可用 OLS 残差的绝对值对拟合值回归：

上述回归的拟合值可作为残差标准差的估计。

4. 计算权重变量：用估算得到的标准差计算权重：

5. 用上述权重计算 WLS 估计量。

WLS 在量化投资中用途广泛。例如，经典的 Barra 多因子模型就是通过 WLS 来估计。在该模型中，样本的权重与市值平方根成反比。其背后的假设是市值更大的公司，其收益率通常更稳定。

3. Robust Regression

Robust regression 旨在克服存在异常值或异方差时 OLS 的局限性。它的目标是获得不受异常值过度影响的参数估计。

M-estimation 是 Peter Huber 于 1964 年提出的一种通用稳健估计框架，其中 M 代表 Maximum Likelihood type，即将极大似然估计（MLE）框架推广到更广泛的估计技术。在回归分析中，M-estimation 通过最小化残差的某种函数的和来推广 OLS 估计量：

其中是某个选定的函数，用于降低异常值的影响。

3.1 求解过程

我们仍然通过 first order conditions 来求解，即对每个系数求目标函数的梯度，并令其等于零。记。对于有：

为了进一步讨论，定义函数如下：

因此，上述偏导数可写为：

令其等于零：

定义权重函数，则一阶条件变为：

你或许已经意识到，这与 WLS 的一阶条件完全一致！那么这是否意味着我们可以将 robust regression 转化为 WLS。答案自然是否定的。此处的关键是：

- 权重依赖于残差；

- 由于，因此残差又依赖于系数估计；

- 最后，系数又取决于权重（因为我们正在运行 WLS！）。

显然，这是一个“鸡生蛋、蛋生鸡”的问题，需通过迭代法求解，这就引出了迭代加权最小二乘法（Iteratively Reweighted Least Squares）：

步骤 1 OLS 估计：首先用 OLS 得到的初始估计，以及初始残差。

步骤 2 计算权重：根据选定的函数，用残差计算权重。

步骤 3 加权最小二乘回归：用权重进行 WLS，得到更新后的。

步骤 4 迭代：重复步骤 2 和 3，持续更新残差、权重和系数，直到收敛。

3.2 常见的 ρ 函数

本节介绍两种常用的函数：Huber 和 bisquare 方法。

Huber 方法的函数定义为：

其中是一个常数。取值越小，目标函数受到异常值的影响越低。通常，取，其中是误差的标准差。实际估算时，建议采用 Median Absolute Deviation（MAD）。与直接使用残差标准差相比，MAD 对异常值更为稳健。根据 Huber 方法的函数，可以推导出其对应的权重函数：

该权重函数对残差较小（即在阈值以内）的样本赋权为 1；而对于超出阈值的样本，权重与残差的绝对值成反比，从而降低异常值对回归模型的影响。

Bisquare 方法的函数定义为：

其中的作用与 Huber 方法类似。对于 bisquare，通常取，仍建议用 MAD 估计，以保证对异常值的稳健性。对应的权重函数为：

在这种方法下，残差在阈值以内的观测数据权重随残差增大而平滑递减，接近时趋于 0；而残差超过的观测数据权重直接为 0。这种处理方式极大地减少了异常值对回归估计的影响。

4. Non-Parametric Regression

Non-Parametric Regression 是一种灵活的回归分析方法，其对数据的内在结构假设较少。与参数方法（如假定函数形式为线性或多项式的回归）不同，非参数方法允许数据自身决定函数的形状。这使得非参数回归在建模复杂、非线性关系时尤其有用。

4.1 直观解释

参数回归方法（如线性回归）假定自变量和因变量之间的关系具有预设的形式。例如，一元线性回归模型假定与之间存在线性关系。然而，真实世界的数据往往难以被简单的参数模型所刻画。非参数回归则对关系的形式几乎不作假设，而是让数据本身决定回归曲线的形状。

下图展示了同一数据集下的线性回归直线（参数回归）和非参数回归曲线。非参数回归曲线能更紧密地追踪数据点，捕捉数据的底层模式。常见的非参数回归方法之一是局部加权回归（LOESS）。

4.2 Local Weighted Regression

局部加权回归（Locally Weighted Regression），又称局部加权散点平滑（LOESS 或 LOWESS），是一种灵活的非参数回归方法，用于建模变量之间的关系。与传统参数方法不同，LOESS 不假定自变量和因变量之间的全局函数形式，而是在每个关注点的邻域内拟合简单模型。

LOESS 的核心思想是在每个关注点附近的数据子集上拟合回归模型。该方法采用加权最小二乘（WLS），权重随与关注点的距离递减。这使模型能够适应数据的局部变化，捕捉复杂的非线性关系。

下图展示了散点图中的若干数据点。在对选定数据点进行 WLS 估计前，需要为每个点分配权重。如何分配这些权重？我们根据每个数据点与关注点的距离来加权，距离越近，权重越大。

那么，权重如何确定？答案是核函数（kernel function）。核函数对距离关注点最近的观测赋予最大权重，距离越远权重越小。设表示观测值与关注点之间的标准化距离，则

其中是第个观测值的自变量取值，是回归函数拟合目标点的自变量取值，是 bandwidth parameter，决定了核函数赋权的窗口宽度。该思想可自然扩展到多元情形。

常见的核函数包括：

Uniform Kernel：
Triangular Kernel：
Gaussian Kernel：
Tricube Kernel：

Bandwidth 是 LOESS 中的关键参数，决定了局部邻域的大小和光滑程度。越小，模型越灵活，能捕捉数据的细节但容易过拟合；越大，模型越平滑但可能欠拟合。

4.3 LOESS 的实现步骤

1. 确定 bandwidth ，决定局部邻域的大小。

2. 权重计算：对每个点，根据与的距离，用选定的权重函数计算所有数据点的权重。

3. 局部回归：对邻域内的数据点，用 WLS 拟合回归模型。

4. 对数据集中的每个点重复上述步骤，得到完整的 LOESS 拟合曲线。

最后，我们可以在局部加权回归中结合 robust regression 技术，以应对异常值问题。具体做法是，首先进行局部加权回归，获得所有数据点的预测值；然后，例如采用 bisquare 方法，对结果进一步修正。为了确保平滑曲线稳定且能准确反映数据本质，通常会多次迭代 robust regression。通过迭代，可以进一步降低异常值的影响，获得更平滑、对异常值不敏感的曲线。

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

合格投资者声明

非 Wooldridge 风格的计量经济学延伸

1. Outliers and Influence

2. Weighted Least Squares

3. Robust Regression

4. Non-Parametric Regression