数据空间
您当前的位置: 首页 /数据知识

非结构化数据怎么盘点?

发布时间:[2022-07-25] 来源:网络 点击量:

一、非结构化数据

一句话简单解释:数据分为结构化数据、半结构化数据和非结构化数据。结构化数据就是能按照数据模型表示的结构存储的数据,具体表现就是数据库中的表、字段、值。

非结构化数据就是无法提炼成数据模型,以结构化存储的数据,具体表现就是各种文档、视频、音频。

半结构化数据就是其中部分信息可以进行结构化存储,部分信息只能“揉成一团”放进开放性的字段里存储的数据,具体表现就是各种日志。

其实在企业中,结构化数据的占比很少,半结构化和非结构化数据的占比会更多。之前看过一份文件里有一个测算结果,结构化数据只占不到20%。

 

二、非结构化数据管理

现在我们叫非结构化数据”,其实之前早就有,叫“档案数据”。对应的组织叫做“档案馆”。

档案馆最初的工作就是进行各类纸质文档、影像资料的管理。具体工作就是进行档案分类、编目、档案管理等工作。

之后档案馆升级,变成“电子档案馆”,对应的工作也就变成了把纸质文件电子化、电子文档智能化、文档内容知识化等工作。

核心工作流程不变,依然是各类档案的分类、编目、管理工作。只不过从原来纸质的文档/录像带变成电子文档/视频文件,由粗笨的档案柜,升级为知识管理系统/文档管理系统。

档案管理工作一般分为两部分:

1、档案管理,包括档案收集、档案分类、档案整理、档案鉴定、档案保管、档案编目等工作。

2、档案利用,包括档案检索、档案统计、档案信息开发、档案编辑和研究(比如档案文献编纂)、档案提供利用等工作。

换到非结构化数据管理,其实都是一样的。把“档案”换成“非结构化数据”就行了。

 

三、非结构化数据分类

跟结构化数据盘点一样,非结构化数据盘点也是需要分类进行的。

我们通常会分为文档、视频、音频、图片等类型,但是更具体的分类还得跟业务场景挂钩,比如:

 

1.jpg

 

这么分是不是就具体多了?跟业务结合更紧密了?当然,也有更具体的,比如这个:

 

2.jpg 

 

这是中石油档案资源分类体系(2020版)的非结构化数据分类标准,是不是就更清晰了?

与结构化数据分类一样,非结构化数据也可以是多分类的。但是一般梳理的时候会按某一个固定分类进行盘点,然后再按业务需要进行多分类。否则就乱套了。

 

四、非结构化数据盘点

非结构化数据都散落在各个文件系统中,甚至是以原始物理文件存储的,盘点的时候就不能像结构化数据一样,直接连接数据库读元数据进行盘点。

那怎么进行呢?

首先,盘点肯定还是围绕元数据进行的。既然不能用系统,就只能人工了。

大致流程是这样的:

1、梳理业务流程;

2、整理业务输入;

3、整理业务输出(非结构化数据就出来了

4、整理非结构化数据元数据,并形成标准;

5、补充业务信息(包括编码、业务分类、业务含义、摘要、标签等);

6、编制成册最终的成果就是类似这样的一套表格,包括文档名称、编号、业务所需各类信息。

 

3.jpg

 

 

中翰软件:专注数据治理17年(http://www.jobhand.cn)

 

 

免责声明:网站所发布的文章为本网站原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、连接等所包含但不限于软件、资料等,如有侵权,请直接致电联系,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。

 


发表评论 共有条评论
用户名: 密码:
匿名发表