不要被股市的高频噪声误导
发布时间:2016-08-30 | 来源: 川总写量化
作者:石川
摘要:投资品高频收益率存在微观结构噪声。已实现波动率是量化这种噪声的有效手段。
1 乌龙指和过山车
2016 年 8 月 24 日,嘉实沪深 300 ETF 出现了乌龙指。从下面的分时图可以看到,在下午 2 点,价格出现了瞬时的脉冲(冲高后马上回落)。
查看逐笔交易数据(下图)不难发现,在 14:00:30 至 14:00:48 短短的 18 秒之间成交了 10000 手。其原因就是某个倒霉的交易员输入了错误的价格(小数点后的第一位和第二位弄反了),该交易员将正确的买单价 3.592 错误地输入为 3.952,从而造成了瞬间卖单通吃的情况,造成了该 ETF 交易价格的瞬间蹿升。在这 10000 手之后,价格又恢复了正常。
再看下面黄金价格的例子。在 2016 年 8 月 26 日的夜盘,当美联储主席耶伦暗示加息预期后的几分钟内,黄金的价格出现了跳水一个点又急速拉升两个点的剧烈波动。而随后的两个小时是市场恢复冷静的过程,黄金价格又从全天高点回到了全天低点。
这两个例子说明,日内投资品价格的高频(1 分钟,5 分钟数据等)以及超高频数据(比如逐笔数据)会由于种种原因产生巨大的噪声,容易给投资者的心理带来巨大的影响。这种扰动又称为股市的高频微观结构噪声,它是不可避免的。本文通过已实现波动率(Realized Volatility)的概念来定量地描述一下金融市场的微观结构噪声(Zhou 1996,Hansen and Lunde 2006)。
2 已实现波动率
由于股价收益率的真实波动难以定量计算,已实现波动率的概念被提出。已实现波动率是已实现方差(realized variance)的开方。后者是利用日内高频交易数据的收益率序列计算得到。具体的,将高频的收益率序列求平方和便得到已实现方差,再将这个方差开方就得到以实现波动率。举例而言,每个交易日有 4 小时,如果我们看 5 分钟高频数据的话,我们就有 48 个 5 分钟收益率的观测值。然后把这 48 个 5 分钟收益率各自平方,再加到一起,最后再对这个和开方,便得到了该交易日的已实现波动率。这实际上是一种方差的积分。已实现波动率是我们研究市场高频微观结构噪声的利器。
3 市场的高频微观结构噪声
在第一节的两个例子中我们看到,两个投资品都在高频的瞬间产生了巨大的波动,而随着时间的挪移,波动消失。换句话说,在 5 分钟频率下观测到的价格上下波动也许在 10 分钟频率下就消失了。基于这个思路,我们可以使用不同的频率来计算交易日的已实现波动率,以此来研究已实现波动率和频率的关系。如果市场确实存在高频微观结构噪声,那么已实现波动率一定是收益率频率的减函数。
我们从沪深两市挑选两只股票(万科 SZ000002 和武钢股份 SH600005)为例来验证上面的猜想。通过 5 分钟的交易数据,我们选择按照 5 分钟、10 分钟、15 分钟、20 分钟以及 30 分钟这 5 个频率计算交易日的已实现波动率。此外,由于 2015 年的大牛大熊周期,当年的股价波动较之前几年明显放大。因此,为了能把不同的年份放在一起比较,我们在验证中选择 2010 年 1 月 1 日到 2014 年 12 月 31 日这 5 年的区间,考虑这个区间内的所有交易日。万科的交易日已实现波动率随数据频率的变化如下图所示。图中的每一个点代表了某一年的所有交易日在某个频率下的已实现波动率的平均值。从下图不难看出在这 5 年中,交易日的已实现波动率随观测频率递减,这证明了上面的假设,即股价确实存在高频微观结构噪声。
类似的,下图是武钢股份的计算结果。同样可以观测到已实现波动率随观测频率递减。
已实现波动率随频率而递减。它给人最直观的感受是“前 5 分钟涨上去、下个 5 分钟就会跌回来”(因为 10 分钟频率下的已实现波动率比 5 分钟频率下的低)。这种感受科学的问法是“高频收益率序列有没有自相关性呢?”这可以通过计算日内高频收益率序列的自相关系数(autocorrelation)验证。我们在此简单的分析一二。
假设随机选取万科的五个交易日(2013-08-26,2014-09-01,2014-06-16,2013-11-29,2013-09-27)。这 5 个交易日日内 5 分钟高频收益率序列的自相关系数如下图所示。每一个图中,上下两条实线平行线表示的是 90% 的无自相关置信区间;上下两条虚线平行线表示的是 95% 的无自相关置信区间。不难发现,在考察的这 5 个交易日中,均无法在 5% 的显著性水平下接受任何时间滞后系数下的自相关性。换句话说,万科股价的 5 分钟高频数据并没有显著的自相关性。
当然,上述只是考虑了 5 个随机的交易日。如果我们考虑所有交易日的“平均”情况,得到的自相关系数方程如下图所示。它说明当时间滞后为 1 时(即相邻 5 分钟收益率的相关性),收益率有一定的负相关,自相关系数为 -0.06。但值得说明的是,这个值非常低。即便在允许 T+0 的情况下,想根据这么低的负相关来通过高频股价序列赚钱,也是非常困难的。
类似的,对武钢股份进行同样的分析。随机选取的五个交易日为 2014-07-08,2013-07-12,2012-09-27,2010-04-09,和 2012-05-11。它们的自相关系数如下。
当考虑所有交易日的“平均”情况,得到的自相关系数方程如下图所示。当时间滞后为 1 时,收益率的负相关系数为 -0.25。这可以说是个不低的数据。当然,因为我国股市不允许 T+0,因此我们并无法利用这个负相关进行高频交易。
4 结语
Hansen and Lunde (2006) 通过对美股深入分析验证了美股市场的微观结构噪声。通过已实现波动率的计算,我们不难发现高频噪声在我国的股票市场同样存在。很多量化投资团队都试图利用高频收益率序列进行各种预测,因此这个分析的意义在于它揭示了微观噪声存在于高频和超高频的收益率序列之中。盲目的使用高频数据也是很有问题的。当数据的频率降低到一定的程度,高频噪声消失、已实现波动率逐渐趋于稳定,这时计算得到的波动率数据才是准确的。此外,我们还简单分析了高频收益率之间的自相关性。结果显示,非相邻 5 分钟之间不存在任何显著的相关性,即它们是二阶非相关的(注意,出于科学的严谨,我想指出它们并不一定是相互独立的,因为它们可以在更高阶的矩上相关)。而相邻的 5 分钟收益率之间因股票而异,可能存在一定的负相关性。然而,由于无法 T+0 操作,投资者想直接利用这种负相关性也是很困难的。
参考文献
Hansen, R. P. and Lunde, A. (2006). Realized variance and market microstructure noise. Journal of Business & Economic Statistics 24(2), 127 – 161.
Zhou, B. (1996). High-frequency data and volatility in foreign-exchange rates. Journal of Business & Economic Statistics 14(1), 45 – 52.
免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。