数据空间
您当前的位置: 首页 /数据知识

企业数据标准规划、建设和应用

发布时间:[2017-03-22] 来源:作者:吴艳伟
点击量:

 本文梗概:

在项目开发时,业务人员和技术人员对同一指标的理解不一致,很容易导致项目的最终结果和业务需求相差甚远。

数据标准作为企业对数据进行定义的依据,是增强企业各部门对业务统一理解的手段,通过数据标准体系的建设,企业可以避免类似问题的出现。

本文将从数据标准的定义讲起,结合具体项目实践,为大家详细介绍数据标准体系架构、数据标准建设的一般步骤、以及数据标准落地过程中的一些关键点。

1.webp.jpg

  今天我分享的内容,整体包括三个部分:

  第一部分主要介绍为什么要建标准,建设数据标准带来价值是什么;什么是数据标准,业界数据标准体系架构,数据标准具体表现形式是什么样的,数据标准包含内容有哪些;

  第二部分结合我们数据标准实施经验,介绍标准如何建立、落地、维护的整个流程;并介绍几个标准落地的几个关键点;

  第三部分给出了一个案例,描述典型的数据标准实施路径,供参考。

2.webp.jpg

一1、企业数据建设现状

3.webp.jpg

  长久以来,大多数的系统都是在某些业务需求的基础上建立,没有考虑与其他系统的功能重复和数据重复,数据一致性和可用性的矛盾突出。由于缺乏这种对数据整体设计考虑,造成多种数据问题:

数据需求缺乏规范,造成数据对象多份存储,存储结构各异,严重影响数据共享。

  例如:某金融公司客户信息存在于财务和产品两个系统中,由于建设时期和团队不同,其中对客户代码长度的定义不一致,财务系统中定义为4位,产品系统中定义为6位,导致同样的数据要素在财务系统和客户系统中标准不一致,造成同一客户财务和产品信息不能很好打通。

数据标准依据各异,造成统计口径无法匹配。

  例如:某金融公司原有系统,业务类型采用业界标准包括资产收购与经营、投资、融资顾问等;由于公司发展,开展了新的业务,因此后来的系统中采用公司新标准,出现了商业收购、阶段性投融资等业务类型。结果新旧系统在业务类型上不一致,业务人员要人为的做关联。

业务口径不统一,造成沟通困难,发生歧义。

  例如:某业务部门,需要财务部门提供一份月报表,由于对余额一词有不同的理解,一个认为是期初余额,而另一个认为是期末余额,造成统计结果大相径庭。经过多次沟通,才达到满意效果。

  数据缺乏标准造成的问题还有很多,总的来说,需要从数据对象、代码、业务指标等多方面实现标准化,才能从根本上减少这些数据问题。那数据标准能给我们带来什么?

4.webp.jpg

  标准可以在业务、技术、管理多个方面给我们提供支撑。

  业务方面:

  提升业务规范性

  通过标准可以明确很多数据业务含义,使得不同业务部门之间,以及业务与技术之间沟通更加通畅,避免歧义。

  例如通过客户数据标准,我们在讲客户的时候,大家理解的是一致的,只有办了银行卡的人,才是银行客户。而不会再有认为在网站注册、或者通过本行转账的人都是客户的理解。

  提升数据对业务分析支持度

  通过数据标准,可以明确的把某个数据主题(例如客户)信息分为多类,例如基本信息、联系信息、财务信息等,为多维度分析和深度挖掘提供依据。

  通过数据标准,实现数据信息统一一致,使得数据更容易在各业务部门之间流转。

技术方面:

  首先,相同结构的数据,才更容易实现共享和交换;因此公司内部标准促进数据在企业内部流转,行业标准促进数据在企业之间流转;

  其次,相同的数据标准,减少大量的转换、清洗工作,极大的提升数据处理效率;数据处理过程中也会减少出差几率,提升问题质量。

管理方面:

  数据标准更多的是能提供完整、及时、准确、高质量的数据,为决策支持、精细化管理等提供支撑。

那么,到底什么是数据标准呢?

5.webp.jpg

  一般我们直观认为数据标准就是几个文档,描述了一些规范和要求,需要大家去遵守。

  更严谨一点定义,数据标准是为了使企业内外部使用和交换的数据是一致和准确的,经协商一致制定并由相关主管机构批准,共同使用和重复使用的一种规范性文件。

  而我们认为数据标准又不仅仅是一套规范,而是一套由管理规范、管控流程、技术工具共同组成的体系,是通过这套体系逐步实现信息标准化的过程。数据标准化是通过一整套的数据规范、管控流程和技术工具来确保的各种重要信息,例如产品、客户、机构、账户等在全公司内外的使用和交换都是一致、准确的过程。

  另外,数据标准也不仅仅是技术或者业务一个部门的事情,它是在数据层面上对重要业务主题的统一规范,也是业务规范在数据层面上的实现。数据标准实施依赖于业务部门之间的共识,以及业务和技术之间的配合。

  那么业界常用的数据标准体系是什么样的呢?标准长什么样,包含哪些内容?下面我会对数据标准的分类和参考体系、内容和形式做一下简单介绍,可以做一个直观的理解。

6.webp.jpg

  首先,数据标准根据不同的数据域分为基础、分析类和专有类三类

  基础类数标是企业日常业务开展过程中所产生的具有共同业务特征的基础性数据,如客户、产品、财务等;

  分析类数标是为满足公司内部管理需要及外部监管要求,在基础性数据基础上按一定统计、分析规则加工后的数据;

  专有类数标是公司架构下子公司在业务经营及管理分析中所涉及的特有数据。

  其中,针对基础类数标,可以看一下金融行业经常用的数据标准十大主题模型。该模型是以主题组织数据,包括客户、资产、机构、产品等主题。

  那么针对某个数据主题,数据标准到底由那几部分组成呢?

7.webp.jpg

  一般数据标准会包括:主题定义、信息项、标准代码三个文档,其中:

  标准主题定义文档:主要是记录数据标准的定义、分类,用于规范和识别数据的主题归属;

  标准信息项文档:记录数据主题的信息项业务属性(分类、业务含义、业务逻辑)和技术属性(类型、长度、默认规则);

  标准代码文档:记录信息项固定码值的编码、分类、使用规则等。

  信息项文档是数据标准的核心。内容包括分类、业务描述和技术描述,一般由信息大类、信息小类、信息项、信息项描述、信息类别、长度共6项组成。当然这些内容也可以调整,例如信息大类、小类,可以合并,或者拆除更多层级。

  信息大、小类是对信息项的常规分类,例如:例如客户信息大类包括基本信息、联系信息、关联信息、财务信息、风险信息、评价信息、往来信息七大类;信息小类,包括:客户编号、名称、证件、地址、评级信息、模型评分、等级、开办业务等;

  信息项是用来描述一个事物的最基本元素。表示一个事物的识别、限制、数量、分类、状态,或者事物间的关系,例如客户信息的名称、年龄、性别等;

  信息项描述是描写或者规范信息项的具体业务描述及界定;

  信息类别是根据业务需求,定义相应的信息项在数据库中所需要的技术格式。例如:编号、标志、代码、金额、日期、数值、文本等;

  长度是信息项的数据长度,供各系统建设参考使用。

二、如何建设数据标准

8.webp.jpg

  一般数据包标准包括制定、落地、维护等过程。其中制定过程包括规划、调研、设计;落地过程通过映射、标准执行等实现;维护过程保证了数据标准的持续更新。

  1、首先,在标准制定过程中的第一个阶段,标准规划阶段,要根据业界经验和企业实际情况确定实施范围,并根据优先级和难易度制定计划。

例如,在金融行业,以金融行业十大主题为依据开展,通过业务了解,确定产品、客户、财务等几个主题是关键主题,其他主题业务关联性很弱;因此,确定实施范围,并根据紧迫度、资金等因此确定了实施计划,分多期建立。

  2、接下来,在调研阶段,通过制定调查问卷、安排现场访谈、收集文档资料等手段,针对各个业务系统以及应用系统进行调研,了解跟标准相关的内容,包括现有定义、使用习惯、数据分布、数据流向、业务规则、服务部门等,形成调研报告,分析问题,并讨论解决方案。

实施过程中,如果多个部门不清楚项目意义和项目目标,首先需要对各部门做项目宣讲,让他们有充分了解。

然后,通过调研问卷方式进行初步了解沟通,同期开始大批量研究企业现有的文档了解业务和数据集。

最后,通过当面访谈深入了解信息,并讨论问题与解决方案。最终通过开评审会方式确定解决方案,并给出分析报告。

  3、有了素材,接下来就是开始标准设计工作。

在这个阶段主要是在方法论指导下,完成数据标准设计和定义工作,包括数据业务描述定义(业务属性)、类型长度定义(技术属性)、其他标准信息定义。

设计出定义与分类、信息项、标准码等文档,并通过各部门的评审验证。最终达成一致,形成企业级标准。

到此,标准制定工作完毕。

  4、接下来主要是标准如何落地工作。把已定义的数据标准与业务系统、业务应用进行映射,标明标准和现状的关系以及可能影响到的应用

标准落地一般通过两种方式:

1)新系统建设,直接参考数据标准;

2)旧系统通过标准映射,实现数据关系转换,以及指导后续数据平台建设。

  5、做完数据标准映射,接下了就是标准落地执行。

这个过程一般需要借助专业的工具实现标准落地检查。标准执行一般有两个过程

1)第一步分析出来现有问题,例如数据缺失、数据不一致等;

2)第二步修正,例如补录数据、修改系统、新建系统等。

通过这些措施,逐步规范数据建设过程,实现数据标准的落地。

  6、数据标准也不是一成不变的,随着业务发展,有些标准需要不断的修订和完善。因此数据标准还有一个关键的管理环节,那就是需要能持续维护改进。

在数据标准维护阶段,需要有相应的需求收集、需求评审、变更评审、发布等多个步骤,并能对所有的修订做版本管理,以方便将来问题查找。

  以上讲了数据标准管理的全过程,接下来我对数据标准落地的几个关键点做一个简单介绍。

9.webp.jpg

第一条关键点:数据标准应该只管理核心数据定义

首先,标准不是模型,标准是可落地的核心元素。

  企业实际数据模型中有上万个字段,有些模型还会经常变换更新,如果把这些信息全部纳入到标准体系中,并且和数据标准建立映射,管理起来非常困难,很难真正实现落地。

  因此要实现数据标准落地,不能一味追求大而全,更多的是应该关注在众多数据中挑选出的核心数据,只管理这些核心数据定义,依照核心数据建立标准,就可以实现企业数据治理的目标,还能提升数据治理的效率。 

  其次,针对核心数据标准主题选择要多维度考虑。

  数据标准只会关注跟业务关联度高的,能够促进业务的规范管理的数据。因此,数据标准制定,选择标准主题很重要。

  在这里,我们通过业务影响度、系统关联度和可实施性等三个方面对各主题做分析,获取各数据主题建设的重要、紧迫程度。

其中,

  1、针对业务影响度,可以通过组织集中讲解、面谈解答以及调查问卷等多种调研活动;获得主题涉及的问题数量、问题影响业务数量、问题影响业务的重要性;

  2、应用系统关联度,可以通过分析各部门关注次数、各系统和系统模块使用次数;并通过对应用系统功能梳理,提炼相关实体;以及对相关实体,进行数据主题归结,形成主题在系统中的分布情况;

  3、可实施分析,可以通过产品手册、各业务部门体系文件,获得主题定义和分类,以及信息项情况;分析获得数据差异性;获得数据定义不一致程度、业务规则整合难度。

通过分析,每个主题关系的业务系统数量不同,业务关注程度也不同,可实施程度不同(差异量,技术等),最终形成主题选择分析图表。在这里每一个度量维度都有加权,通过评分确定实施优先级,例如其中评分在满分的50%以上的,作为本期实施的依据,最终选定实施范围。例如上面的产品、财务、机构、客户四个主题。

10.webp.jpg

第二条关键点:数据标准要包括技术与业务两种属性

  1、数据标准主要是针对业务,企业很多业务的语义十分依赖业务人员的人工梳理,难度大效率低,很可能出现因为梳理人员没有及时梳理,而造成业务语义难以被及时发现和管理的问题。

未来企业将会面临数字化转型,从非结构化的文档中,将大部分业务语义抽取出来,并统一管理,成为未来的发展趋势,这种能力可以通过自然语言分析技术来实现,企业可以通过综合多个材料中对同一业务的描述,分析出最新与最广泛认可的业务定义,由业务人员确认之后,识别出业务语义,这样大大减少了业务人员的工作量,提升了业务人员梳理业务语义的积极性。

  2、在企业数据治理中,任何一个数据标准,如果没有对应的技术手段,都将难以落地,所以企业建立数据标准时,需要加入信息项的英文名称,来和实际数据库表中的字段相对应。

在数据标准中加入信息项的英文名称能给企业数据治理带来两方面的好处:

在做模型设计的时候,标准可以直接与模型设计工具集成,设计模型时就可以直接引用标准。

对已有系统,标准能够通过英文名称直接和应用系统的相关字段对应,自动发现与不符合标准的字段,并通过元数据直接通知给相应的系统。

  3、标准中有了技术和业务信息,还需要有效的关联才能发挥效用。对于企业数据管理来说,技术能弄懂业务的前提是技术与业务之间要有对应,这种对应不能靠大量的人工梳理完成,否则业务部门负担很重,积极性不高。需要能够通过技术手段,利用数据治理工具提供商的行业实践积累,形成业务与技术的自动关联库,自动完成业务与技术对应,将能大大减少业务人员的工作量,同时提升技术与业务关联的准确度,消除业务与技术之间的鸿沟。

11.webp.jpg

第三条关键点:数据标准要持续更新

  对于企业数据治理来说,有很多数据标准建立以后,往往只是一套书,没有根据企业业务发展及时做出更新,时间长了就成为了摆设,实际上,数据标准是需要随着企业的业务变化而不断进行修订的,比如在企业拓展新业务的时候,需要增加相应的标准进去,对于没有价值的标准,也要及时废弃。只有这样,才能保证数据标准一直能适应业务发展需要,促进标准落地。

三、数据标准实施案例

12.webp.jpg

  一般企业数据标准建设完,只停留在册子和书本上,缺乏落地手段,不能有效执行;另外,针对数据标准本身缺乏管理,不能有效适应新业务发展。

  某银行数据管理建设思路侧重于事前预防,将各领域数据管理的要求融入到系统研发当中,从需求编写和需求分析等数据产生源头进行管理。严格按照数据标准进行需求编写,结合数 据质量管理、元数据管理串联整个软件生命周期。同时在这个过程中,不断的验证和修订数据标准,使得数据标准一直能够适应新业务的发展需要。

通过项目实施:

  借助技术手段实现了数据标准的实施落地。在需求、开发、上线等各阶段都会有数标检查,实现全生命周期数据管控;

通过系统管理,推进了数标的持续更新,保持了数据标准生命力。

吴艳伟

  现任普元大数据产品线产品管理部总监,近十年IT工作经验。带领和参与了普元元数据、监控调度等数据产品的规划与研发。曾参与国开银行、中信银行、兴业银行卡中心等企业数据治理项目并主导完成了银联元数据管理项目、长城资产元数据建设和数据标准咨询项目。中翰软件专注数据治理11http://www.jobhand.cn/

点击进入》 主数据管理  企业数据治理  信息资源规划  数据安全管理


发表评论 共有条评论
用户名: 密码:
匿名发表