从 Spearman 秩相关看市场情绪

发布时间:2017-08-23  |   来源: 川总写量化

作者:石川

摘要:秩相关系数用来计算两个变量之间的单调相关性。本文采用秩相关系数进行市场情绪分析。


1 Spearman 秩相关系数


人们对相关系数(correlation coefficient)并不陌生,它是统计学中的一个概念,用来表示两个随机变量共同运动的程度,即线性相关性(linear correlation)相关系数(rank correlation coefficient)和我们常说的相关系数类似,不同的是它考察的是两个随机变量之间的单调相关性(monotonic correlation)。秩相关系数的计算公式和相关系数的类似,只不过在前者中,使用的并不是观测值本身的数值,而是它们在各自样本中的排序。


来看两个例子。假设某班里有 10 名学生,他们的语文和数学分数如下。这里,语文和数学就是两个变量,我们想考察它们的秩相关性。特别的,假设这个班的所有学生都没有偏科,学霸通吃语文数学、学渣则两门都不灵。因此,如果我们分别按语文和数学成绩来排名,并用排名代替这些学生的原始得分时,每个学生的语文和数学排名总能完美的对应起来。比如,语文最高分的学生的数学成绩也是第一。在这 10 名学生中(观测值),语文和数学的排序(两个序列变量,ranked variables)高度一致(单调性完全相同),因此我们说它们的秩相关系数为 1。


f1.png

再来看另外一个班。这个班里的 10 名学生都存在一定程度的偏科,且某一科学得越好,另外一科学的越差。他们的语文数学成绩和分别的排名如下表所示。例如,语文第一名的学生,数学考分垫底(第 10 名)。在这 10 名学生中,语文和数学排序的单调性完全相反,这说明它们存在完美的负的秩相关。事实上,在这个例子中,语文和数学的秩相关系数为 -1。


f2.png

从这两个例子可以看出:


当两个变量在观测值序列中有相似的排序时,这两个变量的秩相关性很高;而当它们在观测值中有明显不同的排序时,这两个变量的秩相关性很低。极端的情况发生在当两个变量的排序完全一致或者完全相反。秩相关系数的取值为 -1 到 1 之间。


秩相关性的取值仅与变量的排序有关,而与具体的观测值无关,因此它描绘的是变量之间的单调相关性。我们之所以关心秩相关性是因为传统的相关系数仅考察两个变量之间是否存在线性相关性。而秩相关性对变量之间的线性或非线性相关性不做假设,而将考察的重点放在单调相关性上。

 

在统计学中,有多种计算秩相关系数的方法,其中最流行的要数 Spearman 秩相关系数,它以 Charles Spearman 命名。假设有两个随机变量 X 和 Y 的 n 个观测值,Spearman 秩相关系数,记为 r_s,的计算过程如下:


1. 首先将 X 和 Y 的观测值转换成它们对应的排序 X_r 和 Y_r。


2. 对 X_r 和 Y_r 采用传统的线性相关系数公式,则可得到 r_s:


f3.png


特别的,如果 X 和 Y 各自的取值没有重复——即排序后的 X_r 和 Y_r 中没有任何两个观测值有同样的排序,则 r_s 还可以通过下面这个更简单的公式计算:


f4.png

 

其中 d_i = X_r(i) – Y_r(i),它表示第 i 个观测值中 X 和 Y 的排序之差;n 为观测值的总数。


由上面这个简单的公式很容易验证,在上面两个例子中,第一个班级中语文和数学的秩相关为 1 - 0 = 1;而第二个班级中语文和数学的秩相关系数为 1 - 6 × (9²+7²+5²+3²+1²+1²+3²+5²+7²+9²) / (10 × (10²-1)) = 1 – (6 × 330)/990 = -1。


2 秩相关和市场情绪


在量化投资领域,我们可以使用 Spearman 秩相关性做市场情绪分析。市场情绪(market sentiment)是个很主观的定义。在我们的用例中,对它的解释如下:


市场情绪的高、低由风险资产的收益率和它的风险水平的一致程度所反应。市场情绪高涨时,高风险资产应该比低风险资产有更高的收益率;市场情绪低落的时候,高风险资产应比低风险资产有更大的跌幅。


在上述解释下,我们可以使用风险资产的收益率和其风险水平之间的单调相关性来定量评价市场情绪。这里使用秩相关性的好处是,我们并不需要假设收益和风险水平之间到底应该是线性的还是非线性的关系。上述解释符合人们对市场的认知。通常在一波涨幅有偃旗息鼓迹象时,我们看到最后一波的疯狂往往由大盘股(如银行、石油和传统低 β 板块)拉升,反而之前涨幅较好的高 β 板块(如 TMT、有色金属)出现回调,给人造成不舒服的感觉。


如何选取风险资产并描述它们的风险水平呢?一个合理的选择是使用不同的行业指数作为风险资产,并使用它们的 β 系数来代表风险水平。为此,选用申万一级的 28 个行业作为风险资产,并使用东方财富全 A 指数作为市场的代表,以此计算不同行业的 β。有了不同行业的 β 之后,我们便可以计算这些行业指数的收益率与它们的 β 的秩相关系数,以此来定量说明市场情绪的大小。特别的,假设收益率和 β 的秩相关系数为 r_s,则我们定义市场情绪如下:


f5.png


因此,市场情绪的取值在 -100 和 100 之间,越高说明情绪越高涨。


3 计算 β 系数


为了计算市场情绪,必须知道每个行业的 β 系数。由定义可知,对于任意行业 k,其 β 系数,记为 β_k 的计算公式为:

f6.png

其中,ρ_km 为行业 k 和市场收益率的相关系数;σ_k 和 σ_m 分别为行业 k 和市场收益率的波动率(标准差)。根据 Frazzini and Pedersen (2013),在上式中分别计算相关系数和波动率的原因是:


1. 较波动率而言,两个变量的相关性的变化更加缓慢。因此,应该使用更长的历史数据来计算相关系数,而可以用更短的数据计算波动率(考虑到波动率聚类,这是有必要的)。这要求计算时把波动率和相关系数区分对待。

 

2. 对于波动率和相关系数的计算可以使用不同粒度的收益率数据。例如,对于波动率我们可以使用日收益率;而对于相关系数我们可以使用三日收益率或者周收益率数据,以消除非同步交易的影响。(当然,由于我们都是使用行业指数而非个股,并没有这个问题。)


在所有相关的计算中,使用的都是对数收益率。在计算波动率时,使用过去 1 年的日对数收益率;在计算相关系数时,使用过去 2 年的三日对数收益率。这样,我们可以计算出这 28 个申万一级行业在每个交易日的 β 系数。


4 实证分析


本节将市场情绪分析在 A 股上进行实证。假设考察的时间区间为 2011 年 1 月 1 日到 2017 年 8 月 18 日。此外,为了避免日收益率的噪声,以周五进行 β 系数采样并使用周收益率计算秩相关系数和每周的市场情绪。需要说明的是,在实证分析中,我们仅仅想考察这个本文介绍的这种基于秩相关的计算方法在描述市场情绪时是否合理。因此计算 β 和秩相关系数时采用的都是当期的最新数据。换句话说,计算中假设每周收益率已知后(比如等到周五收盘后),再计算最新的市场情绪。本文不试图使用市场情绪指标对未来的收益率进行任何预测。


和相关系数类似,如果秩相关系数在 0 附近这说明两个变量的单调相关性不明显,因此我们重点关注秩相关系数——市场情绪——超过一定正、负阈值的情况。为此,在计算出的每周原始市场情绪序列中,将数值在 -30 到 30 之内的以 0 代替,表示在那些周市场情绪不温不火。最终,下图显示了市场情绪和东财全 A 指数在实证期窗口内的变化。


f7.png


观察上图,我们可以大致得到以下几个结论:


1. 由于我们计算的是事后市场情绪,因此它和市场的涨跌走势在一定程度上相符合:市场上涨时,情绪一般高涨;市场下跌时,情绪则在 0 水位以下;在市场纠结时,情绪也比较纠结(图中对应的是那些市场情绪为 0 的周)。


2. 比较有意思的一点是在 2015 年牛市结束前的一到两个月,市场情绪出现过连续的几周非常负面的情况。虽然现在下任何结论还为时尚早(我不能不负责任的说什么“市场情绪有预示牛市中风险累积过高的作用”这种观点),但这种现象绝对值得进一步研究。


3. 最近几个月,市场情绪逐渐得到修复。虽然 3300 点似乎已经成为了上证指数的一个无法逾越的阻力位,但从情绪的角度看,市场并没有太过悲观。


5 结语


对市场情绪的量化对投资来说无疑会有益处。计算市场情绪有不同的方法。例如,对于流量大的投资公众号或者平台,可以定期统计投资者的仓位并以此来计算市场情绪(情绪高涨时仓位应该重;反之仓位应该轻)。本文从秩相关的概念出发,介绍了券商中流行的一种定量计算市场情绪的方法。


这种方法是否有效是个见仁见智的问题。我个人的感受总结如下:


1. 基于秩相关的市场情绪是一个事后分析手段。和技术分析指标类似,市场情绪是对历史数据所传达的信息的二次加工。是一种信息浓缩、提炼过程,让人们可以通过单一指标对情绪有一个认知。


2. 由于它是一个历史信息提取手段,因此它是否对未来的收益率有预测性仍然存疑。客观来说,不可能存在单一的指标或者因子和某个投资品未来的收益率高度相关(那就发财了),因此市场情绪指标也许更适合来作为一个辅助判断的手段。在一些研究报告中,存在使用市场情绪预测未来收益率而构建投资策略,并取得了不错的效果。但是我甘愿相信那就是数据操纵的产物。由于大 A 股独特的牛熊周期,只要抓住牛市、躲开熊市,那么回测的净值就不会太差。因此,通过选择参数和标的,使用市场情绪来在回测中择时远没有想象的困难。


3. 计算时完全可以不使用本文提到的申万一级行业,而使用其他的风险资产。事实上,我也尝试了使用沪深两市的个股进行同样的计算。在那种情况下,由于股票的波动率较大且个数太多,使用所有的股票对于秩相关系数的计算会产生较大的噪声。为此,可以考虑按照 β 值或者行业对个股进行采样,以排除相似的股票,把研究的重点放在风险水平差异较大的那些股票中。


4. 情绪分析的频率可以因分析目的而异。本文仅仅以周频来做实证并做汇报而已。我也使用日线和分钟线进行了情绪分析。综合不同时间尺度上的市场情绪结果也许能提供新的视角。


5. 能否准确计算 β 系数十分重要。计算中,本文采用了日收益率数据,这是因为计算相关系数的准确性随着采样频率的增加而增加(Merton 1980)。同时,分别计算风险资产和市场指数的相关系数和它们的波动率也是为了更准确的计算 β。



参考文献

Merton (1980). On estimating the expected return on the market: An exploratory investigation. Journal of Financial Economics 8(4), 323 – 361.

Frazzini and Pedersen (2014). Betting against beta. Journal of Financial Economics 111(1), 1 – 25.



免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。