后金融危机时代,花旗银行是如何提高数据质量的?

发布时间:2016-07-20  |   来源: 川总写量化

作者:石川

摘要:本文介绍世界顶级金融机构花旗银行如何处理并提高数据质量。


0 引言


量化投资决策的数学模型要分析大量的宏观经济数据以及股票交易数据,模型有效与否直接由输入数据的质量决定。垃圾进,垃圾出(garbage in, garbage out),模型输出结果的质量只会比输入数据的质量更差。那么,一套科学、完整、有效的数据质量分析框架就显得格外重要。今天,我们就来为你介绍世界顶级金融机构花旗银行是如何处理并提高数据质量的。


1 契机


2008 年全球金融危机暴露了美国金融体系的内在缺陷,危机过后政府部门普遍提高了对金融机构的监管要求和监管力度。对于金融机构自身而言,数以万计决策的制定倚赖数以亿计数据的准确性,金融危机充分暴露了这个领域存在严重问题。因此,来自危机的警示和趋于严苛的监管,共同促使金融机构重新审视提高数据质量的重要性。笔者有幸于 2011 年就职于全球最大的金融机构之一的花旗银行并直接参与数据质量的工作。本文对花旗银行改善数据质量的分析框架进行简单梳理。感兴趣的读者可以进一步参阅我和当时的同事为此发表的论文 Shi et al. (2015) 以及出版物 Jugulum (2014)。


2 CDO


作为行业的领袖之一,花旗银行在 2009 年下半年成立了企业层面的数据办公室(Chief Data Office,下称 CDO),主要有两个作用:


制度层面,负责在公司内制定和形成数据管理的纪律和文化;


执行层面,为公司各项业务提高数据质量。


通过这个部门,花旗将数据质量的实时监控深入到日常运作的方方面面,帮助及时发现包括流动性、信贷、市场、保险和运营在内的各项风险。花旗坚信,高质量的数据不仅是企业竞争力的关键所在,也有助于提升监管部门的信心。


3 分析框架


这个新成立的数据部门包括几个小组,而我在的组专门负责数据分析和改进。这个组由数据专家和分析师组成,负责构建数据质量的监控和改进框架。整个分析框架由两部分组成。


首先是通过“漏斗法”、利用统计学手段确定需要监控和改善的数据元素。数据元素可以定义为在银行的各项业务中用到的数据属性(比如客户的姓名就是一个数据元素,它可以被用于账户管理、市场营销以及客户服务这些业务中)。银行业务繁杂,有数以万计的数据元素,因此必须找到对运营、服务、监管等应用场景成败与否最至关重要的数据元素,把有限的人力和资源用来提高它们的质量。被选出的核心数据元素称为 CDEs(Critical Data Elements)。


当 CDEs 确定之后,采用流程改善的经典工具 6 Sigma(译作六西格玛)对这些数据进行实时的监控和分析。通过监控数据质量判断产生这些 CDEs 的业务过程是否出现纰漏或者异常变化,及时发现这些业务的潜在风险并采取有效的措施避免可能的损失。


接下来,我们就来看看漏斗法是如何筛选核心数据元素的(这是花旗银行的独创)。对于 6 Sigma,由于它是业界广为人知的过程改善方法,我们只稍作提及但不会重点描述。为了结合实际,我们将用巴塞尔第二协定的用例来说明花旗的数据质量分析框架。


4 漏斗法


漏斗法包含核心数据元素的识别和优选两部分(流程图见图 1)。


识别阶段(前两步),通过业务专家(subject matter experts)和评分矩阵初步筛选出核心数据元素。一般来说,在这个阶段过后,被选出的元素个数仍然太多。


优选阶段(后两步),通过统计学中的相关性和信噪比分析进一步过滤不必要的数据元素,得到最终的核心数据元素。


f1.png

图 1 漏斗法识别和优选核心数据元素 CDEs

 

漏斗法因“输入元素多、输出元素少”而得名。下面我们将按照先后顺序,对漏斗法的这四个步骤分别进行详述。


4.1 引入业务专家,“客户需求”是重中之重


引入业务专家观点是这个分析框架的核心之一。一切提高数据质量的努力都是为了每一个具体的业务用例,而业务专家在这个过程中就是“客户”,数据元素的鉴别必须从“客户需求”(voice of customers)开始。业务专家为 CDO 的数据专家解释业务过程的商业逻辑,阐明该业务的输入和输出数据元素都有哪些。在二者的配合下,由业务专家首先拟定候选核心数据元素。在巴塞尔第二协定这个用例中,花旗的相关业务专家首先鉴别出 35 个数据元素。


4.2 使用评分矩阵,按对业务的重要性为数据元素打分


虽然业务专家可以初选出很好的候选数据元素,但进一步的筛选就需要一个可以量化的科学体系了,评分矩阵便应运而生。


f3.png

图 2 数据元素评分框架


评价矩阵如图 2 所示。首先选出一系列和业务相关的数据评价标准,并按照其重要性打分。为了有一定的区分度,分数分为 1、4、7、10 四档。其次,将每个数据元素按每个评价标准的规则进行打分,打分同样按照 1、4、7、10 四挡。将标准的重要性得分和数据元素对于该标准的得分两两相乘再求和,便得到每个元素的总分,并根据这个总分把它们从高到低排序。这个评分矩阵帮助业务专家对候选元素进行量化比较。在巴塞尔协定用例中,利用这个评价矩阵,业务专家从 35 个候选元素中选出了分数最高的 21 个。


4.3 进行相关性分析,进一步精简核心数据元素


在漏斗法的第三步,相关性分析被用来检查是否有多个数据元素具有很高的相关性。这是因为如果两个元素的相关性非常高,那么我们只监测其中一个即可。这样能进一步减少核心数据元素的个数。对于连续的数据元素(比如用户的存款数)和离散的数据元素(比如客户的姓名),回归分析和关联分析分别被用来检查元素之间的相关性(注:在金融行业的用例中,线性相关性一般来说就足够了)。


图 3 显示了在我们的用例中,部分候选元素之间的相关性。值得一提的是,相关系数的取值在 -1 到 1 之间,越接近 1 说明正相关性越高,越接近 -1 说明负相关性越高,越接近 0 说明线性相关性越不明显(注:也许它们有非线性相关性,但不在我们考虑范围内)。在应用中,0.85 和 -0.85 被用来当作高相关性的阈值。


f4.png

图 3 元素之间的线性相关性


相关分析显示,有 10 个元素组成了 8 对两两相关的配对。这表明,我们只需要从这 10 个元素中选出 4 个即可;另外 6 个元素将和这 4 个元素高度相关。如何进行 10 选 4 能?信噪比分析将隆重登场。


4.4 通过信噪比分析,确定最终核心数据元素名单


信噪比源于质量控制,用来测量信号相对于环境噪声的大小(Taguchi 1986, Taguchi and Jugulum 1999)。信噪比定义如下:


e1.png


这个定义说明信噪比低的 CDE 有更大的波动性。数据的波动性往往说明产生这个数据的业务过程有更大的不确定性、因此需要实时的监控。因此对于两个高度相关的数据元素,我们选择信噪比低的作为需要监控的对象。对 4.3 节提到的 10 个元素计算信噪比,结果如图 4 所示,我们从中选取信噪比低的 4 个元素。


f5.png

图 4 高度相关数据元素的信噪比


通过相关性和信噪比分析,我们进一步舍弃6个数据元素。最终,整个漏斗法的四个步骤将核心数据元素个数由原始的 35 个降至最终的 15 个(减少了 57%)。这为后面数据质量的检测大大减少了所需的人力和资源。


5 数据质量监测和改善


核心数据元素确定后,便可对它们的质量进行实时监测,一旦发现问题便可采用 6 Sigma 方法改进业务流程,防范风险。想要量化数据质量,必须首先选取评价的维度,它们称为数据质量维度(data quality dimension)。一个数据质量维度可以定义为描绘该数据在某一方面的质量的属性,比如数据的完整性、一致性、有效性、准确性等。


举个例子,客户年龄是一个数据元素,如果所有的客户在客户年龄这个元素上都有数值,则这个元素在完整性这个属性上的数据质量是满分。但完整性仅仅刻画单一特性,所以我们并不知道用户的年龄是否正确(比如用户 A 可能实际是 30 岁但我们的记录显示为 40 岁)、取值是否有效等(比如我们的记录可能显示用户B的年龄为 -1,这显然是无效的)。因此,需要从多个维度考虑数据元素的综合质量。图 5 显示了在巴塞尔用例中,最终确定的 15 个核心数据元素在完整性、一致性和有效性三个维度上的质量得分(注:表中数据仅是模拟分数,并非真实分数)。


f6.png

图 5 数据质量得分


量化的数据质量使得我们可以通过统计过程控制(statistical process control)对数据质量进行监测。一旦发现异常值或者数据质量的突然恶化,便根据数据产生的逻辑顺藤摸瓜找到产生数据的业务环节,然后采用 6 Sigma 流程改善中的经典分析方法对业务进行完善,真正的做到有的放矢。


6 结语


数据是金融机构最重要的无形资产。无论是银行、公募私募基金、互联网金融公司,高质量的数据都是它们赖以生存的前提条件。特别的,对于量化投资来说,投资决策的数学模型要分析大量的宏观经济数据以及股票交易数据。这些模型有效与否由输入数据的质量直接决定。所谓垃圾进,垃圾出(Garbage in, garbage out),模型输出结果的质量只会比输入数据的质量更差。然而,业界并没有多少文献系统的阐述一个能被直接应用于实际的数据质量分析框架。在这方面,花旗可谓是先驱之一。希望通过今天的介绍,让更多的小伙伴了解到世界顶尖银行在这方面所做的努力;更希望有人能因此受到启发,把数据质量的提高带入到他们自己的投资实战中。



参考文献

R. Jugulum (2014). Competing with High Quality Data: Concepts, Tools, and Techniques for Building a Successful Approach to Data Quality. Wiley.

Shi, C., R. Jugulum, H. I. Joyce, J. Singh, B. Granese, R. Ramachandran, D. Gray, C. H. Heien, J. R. Talburt (2015). Improving Financial Services Data Quality – a Financial Company Practice. International Journal of Lean Six Sigma 6(2), 98 – 110.

Taguchi, G. (1986), Introduction to Quality Engineering, Asian Productivity Organization, Tokyo.

Taguchi, G. and R. Jugulum (1999). Role of S/N ratios in multivariate diagnosis. Journal of Japanese Quality Engineering Society 7(6), 63 – 69.



免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。