数据空间
您当前的位置: 首页 /数据知识

什么是数据目录?定义、案例和最佳实践

发布时间:[2022-10-08] 来源:网络 点击量:

数据目录是企业中的数据资产的有组织清单。

数据目录被定义为一个组织中所有数据资产的清单。它帮助数据专业人员为任何分析或业务目的找到最相关的数据。数据目录使用元数据来创建一个组织中所有数据资产的信息和可搜索清单。本文讨论了数据目录的定义,其构建过程,以及数据目录的十大最佳实践。

 

01 什么是数据目录

数据目录是一个组织中所有数据资产的清单,帮助数据专业人员为任何分析或业务目的找到最相关的数据。它作为一个数据清单,并提供必要的信息来评估数据对预期用途的适用性。它还帮助分析师和其他数据用户找到他们为特定目的所需的目标数据。

用图书馆对其进行类比。

当你想知道某本书在图书馆是否可用时,你一般会使用图书馆目录。除了它的可用性之外,目录还告诉你这本书的版本和位置。

简而言之,目录为你提供了该书的各种细节,以决定你是否需要它。如果你想要,它还告诉你如何找到它。这是今天许多对象存储、数据库和数据仓库的一个基本提供。

现在让我们把图书馆目录的力量扩展到全国的每一个图书馆。想象一下,你只有一个用户界面(UI),而你可以找到全国每一个有你要找的书的图书馆。你还可以在这个用户界面上找到你想要的关于这些书的所有细节。

这正是数据目录对你所有的组织数据的作用。它为你提供了一个单一的、全面的视图,对你的所有数据都有可见性,而不是每次只看到一个数据存储。

最近进行的研究表明,数据目录赋予用户分析能力,这反过来又推动了业务绩效。拥有数据目录的用户不仅报告了总客户群的增加,而且还报告了现有客户满意度的提高。

 

02 数据目录的元数据主题

图片1.jpg

数据目录元数据主题

 

在当今大数据和自助分析时代,数据目录已成为元数据管理的关键。现代的元数据比商业智能 (BI) 时代的元数据要广泛得多。当今的公司处理的数据环境年增长率超过 30%,有些远高于此。数据目录工具使数据团队能够通过在集中式平台上组织来自多个来源的数据来更有效地定位、理解和利用数据。

数据目录主要关注数据集(即可用数据的清单),然后将这些数据集与丰富的信息联系起来,让相关人员了解管理数据的信息。

数据目录的核心包含以下元数据主题,让我们详细看看每个元数据主题:

1、数据集

数据集是组织人员访问的文件和表。这些可能驻留在数据湖、仓库、主数据存储库或任何其他共享数据资源中。

2、人员元数据

这描述了使用数据的人员,包括消费者、策展人、管家、主题专家等。

3、搜索元数据

此元数据支持标记和关键字,以帮助人们查找数据。

4、处理元数据

此类别详细说明了在数据在其整个生命周期中进行管理时应用的各种转换和派生。

5、供应商元数据

供应商元数据包括从外部来源获取的数据,因为它告知与数据相关的来源和订阅或许可限制。

 

03 数据目录流程:示例的关键步骤

构建有效的数据目录有五个步骤,让我们详细看看每个步骤:

1、采集数据

构建数据目录需要采集所有数据。为了确保收集到正确的数据,需要回答两个问题:要采集哪些元数据以及如何采集它?让我们一次解决每一个问题。

要采集哪些元数据?使用数据的形状、结构和语义填充数据目录是构建数据目录的第一步。大多数数据用户,例如数据科学家、数据工程师、业务分析师和其他人,都根据数据所在的模式或表来引用数据。

考虑以下问题和答案作为示例:

 我在哪里可以找到至少购买了一件商品的客户?

检查“cust_purchases”表

 发票是如何产生的?

发票中包含一个或多个订单。检查“发票”和“订单”表的数据。如果已支付发票,您可以在“付款”表中找到付款。

如今,流式数据和非表格数据(例如 JSON、Parquet 结构)随处可见,而且它们的数量正在以越来越快的速度增长。即使您今天不使用这些技术,也要寻找支持嵌套数据结构并允许您在未来集成流技术的数据目录

最后,有效的数据目录必须能够采集数据血缘。数据血缘使用户能够查看数据的来源以及数据的轨迹。这对于提供用户在使用数据时经常需要的上下文至关重要。

那么,如何采集元数据?

构建数据目录后,您将需要一个可以代表您轻松填充目录的工具。这可以节省大量时间,因为它避免了手动更新数据生态系统中的每个数据库、表和字段。所有主要数据库和数据存储(例如,AWS S3)都有可用的 API,允许您提取表示数据形状和语义的元数据。因此,您应该考虑在构建数据目录时自动填充元数据的能力。

在某些情况下,您可能无法直接连接到您的数据库。例如,考虑您不想公开敏感数据,或者您正在使用不公开的托管数据库。在这种情况下,您应该能够使用数据存储中的示例文件和提取作为直接连接到数据库的替代方法。

在最坏的情况下,当一切都失败时,您应该能够自行快速采集数据而无需自动化。记住不同数据库的所有客户端库的更改频率,不能保证完美的流程或工具。因此,选择自己解决问题对于构建强大的数据目录至关重要。

2、指定联络点

构建数据目录后,确定每个数据资产的重要人员是谁很重要。因此,将所有者等数据用户分配给您的数据资产非常重要。这使有其他问题或疑问的用户可以联系到合适的人。

各种数据用户的问题可以分为两类:

 此数据资产的业务上下文

例如:Null 对这个字段意味着什么?

 数据资产的技术属性

例如:谁可以将此新字段添加到架构中?

数据目录可能有多种类型的所有者(例如,数据管理员、技术所有者、业务所有者、执行所有者等)。

但是,数据管理员和技术所有者发挥着重要作用。数据管理员使您的用户能够知道向谁寻求所有与业务相关的信息。同时,技术所有者可以回答数据用户可能遇到的面向技术的问题。

创建数据目录时,您可以将任务分配给您的所有者。这些任务旨在确保您的数据目录有据可查并且对其他团队成员有用。

3、记录每一次互动

当你开始在数据目录中记录你的数据时,你希望捕捉的信息量一开始可能会显得很庞大。假设你有两个数据库,每个数据库有几十个表。每张表又有少量的字段。在这一刻,你似乎已经看到了几千个数据资产。

因此,你可以从选择一个单一的方法论开始,并随着时间的推移慢慢增加文档。这将确保你在几个月内达到一定的覆盖率,也许是90%或更少。

一些常见的方法论包括:

 每当你了解到这一点,就把它记录下来

 每个人都应该负责更新数据目录,当他们了解到一些还没有被记录的新东西时。

 当代码发生变化时,改变文档的内容

 当团队发布新功能时,相关的团队成员应该更新数据文档。

 为团队成员留出时间

要求你的每个团队成员每周花一个小时,或者每天早上花15分钟在数据目录上。这将使他们能够为他们熟悉的数据资产添加新的文档,或者研究他们不知道的数据资产。所有的数据资产在数据目录中都应该有丰富的文本文档,让用户能够突出关键点。

数据目录还应该为用户提供能力,将资产归入共同集。这可以通过对数据的标记来实现。例如,如果你想看到一份关于你所有个人身份信息(PII)的报告,你可以用 "PII "来标记你所有包含此类数据的表和字段。

此外,当你的数据目录允许你的用户与你的数据进行对话时,你就能释放出文档的力量。当一个用户有一个关于数据的问题,并且该数据最终得到了回答--那么这个问题、答案以及导致答案的对话都应该在目录中被记录下来。

这允许下一个有类似问题的数据用户能够查看之前的对话,并了解答案的背景。这可以节省时间,因为无数次重复相同问题和答案的对话都会被记录下来。比如说。

A:我如何从我的电脑连接到数据库?

B:你只需要登录到VPN,就可以直接指向数据库主机。(有记录)

在这个例子中,A君可以参考B君的文档化答案,了解所需的解决方案。

4、确保数据目录是最新的

组织所面临的主要挑战之一是保持数据目录的新鲜。开发人员一般会在一段时间内改变数据库的结构,并经常创建新的管道。

数据科学家和业务分析师一般会创建数据立方体或在分析环境之间移动数据,以创建新的仪表板,也同样频繁。引用这些模式,你的数据目录应该尽可能地自动识别这些变化,并相应地更新自己。

为了确保数据目录是新鲜的,一些用户互动来仔细检查信息的质量和呆滞性是很重要的。你的数据目录可以使用治理行动来推动你的用户在他们认为基础文件可能是旧的或过时的时候采取行动。

5、根据需要进行优化

每个公司都根据他们的要求和需要来使用数据目录。所以,你需要为你希望你的组织利用数据目录的方式设定标准和规范。这里需要注意的是,你的团队计划使用数据目录的方式将高度影响你捕捉文档的方式。

因此,如果你不知道你的团队将如何使用数据目录,那么你花在记录数据上的时间很可能会导致不充分的结果。你的团队可以做的一些常见做法,以优化你与数据目录的互动:

 设置标准化的文档格式,并跨数据库、模式、字段和数据线使用。

 确定关键的学习模块,并用一个共同的主题来标记每个学习模块中包含的资产。

 强调团队对数据目录使用的规范。这将使数据文化在团队成员中深深扎根。

 

04 数据目录的十大最佳实践

数据目录可以成为强大的数据管理平台。然而,如果没有适当的数据编目方法,数据目录的力量和功能可能会付之东流。考虑到这一点,以下是数据目录的十大最佳实践。

1、把所有的东西都加入到你的清单中

数据无处不在——文本文件、电子表格,以及更多。

尽管数据可能是分散的,然而在你清点所有东西之前,你甚至无法开始解决数据问题。团队中的每个人都应该接受培训,思考他们的数据可能依附的所有地方。然后确保每一个分散的数据都被编入目录。

2、管理数据流

数据脉络和出处工具是好的,但它们中的大多数都是在一个已知的领域或一组领域内映射出数据流。

一个好的数据目录,一个由数据流发现支持的目录,往往会识别不同数据集之间的流动。这样的安排可以帮助你发现你的组织内可能不为人知的数据流动。然后,这些流动可以被检查是否有效。因此,管理数据流是建立一个有效的数据目录的良好做法。

3、优先处理敏感数据

有效的数据目录的主要目的之一是帮助识别敏感数据的位置。

在多个地方发现相同的敏感数据的情况下,它可以帮助识别冗余的数据。因此,管理敏感数据和冗余数据可以使你最大限度地减少漏洞的表面积,并建立强大的数据保护,防止任何外部攻击。

4、考虑非结构化数据

非结构化数据(文档、网页、电子邮件、社交媒体内容、移动数据、图像、音频和视频)是不符合数据模型的数据,没有容易识别的结构。

它并不适合主流的关系型数据库。也就是说,你的数据目录可以帮助将隐性的数据结构显性化。这可以通过根据团队或组织要求重新设计整体数据结构来实现。因此,考虑 "非结构化 "数据对任何数据目录都是至关重要的。

5、指定可发现的名称和描述

一个好的名称和冗长的描述将使你的数据更容易被相关的团队成员发现。描述可以指出同一对象的其他名称,并帮助建立一个全面的数据本体。

6、区别对待数据湖表

在关系型数据库中,数据可能分散在多个表中。然而,数据湖倾向于将大量的数据挤入单个文件。

在商业智能领域,一个单一的数据集可能会将措施和维度存储在一起,而不是分开。即使是在数据库中以表格形式表示数据的系统也是如此。这可能会使数据的可发现性降低,但数据目录可以正面解决这个问题。

7、提供透明的评级

在你的数据目录中,众包的评级、认可和负面评级可以帮助用户以更快的方式获得相关和可靠的信息。但这需要严格的标准。数据不应该得到五星评级,除非它符合一个非常高标准的基准。

同样地,好的数据也不应该被评为差的。用户需要对评级有信心,否则他们就不会信任它们。因此,一个组织应该确保标准的统一和精确。

8、让它成为一个湖,而不是一个沼泽

在你的数据湖中对所有的东西进行编目,使你能够组织它并使它可用。一旦你的湖被编入目录,你就可以在其中建立区域,使其成为业务用户获取数据的首选之地,而不仅仅是他们倾倒数据的地方。

9、采用数据验证规则

数据目录中的英文描述很重要,因为它们有助于记录和流通所谓的过时的知识给各种业务用户。这需要技术专家的参与,因为严格的数据验证规则可以帮助验证数据是否符合目录的定义。这样的过程保证了数据质量,并作为对更多定性星级的检查。

因此,在数据目录中采用精简的验证规则可以在数据用户中灌输信任。

10、利用机器学习技术

由于数据量的增加,手工编目在今天是一项不可能完成的任务。

随着新数据的到来,编目工作根本无法完成,甚至无法跟上步伐。然而,机器学习(ML)是一个很有前途的工具,可以对数量问题进行控制。ML模型可以识别数据类型和关系。这有助于在更多的数据集上建立你的目录。它也比手动目录更快地在更多的对象上传播数据标签。

因此,如果你的数据目录没有在实际数据中利用ML,你可能在数据驱动的旅程中面临巨大的阻力。总之,数据目录是你的数据的指南,它以对你、你的团队和你的业务有意义的方式来组织。

有了一个精简的方法,你就能在管理、治理和利用你的数据方面发挥其最大的潜力。以上的顶级实践应该给你在数据目录的道路上一个良好的开端。

 

05 关键点总结

在一个组织实现数据智能的过程中,数据目录发挥着关键作用。它是推动收入、优化运营效率、促进创新和增长的一个重要因素。既然你已经意识到了数据目录的意义,我们希望你能部署一个最适合你的业务需求的数据目录

 

 

中翰软件:专注数据治理17年(http://www.jobhand.cn)

 

 

免责声明:本网站所发布的文章为本网站原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、连接等所包含但不限于软件、资料等,如有侵权,请直接致电联系,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。


发表评论 共有条评论
用户名: 密码:
匿名发表