数据空间
您当前的位置: 首页 /数据知识

数据分析工具,你选对了吗?

发布时间:[2017-03-29] 来源:IBM大数据与分析
点击量:

  在耀眼的职业光环下,数据分析师自身的成长是非常艰难的。数据分析师们不仅得懂管理、懂业务、懂分析,还得懂工具。面对越来越庞大的数据,数据分析师们不能依靠计算器进

分析,必须依靠强大的数据分析工具完成数据分析工作。

一个数据分析项目,通常数据处理时间占70%以上,使用先进的工具有利于提升效率。那么,哪款数据分析工具深受数据分析师们的青睐呢?

当然是 IBM 数据分析大家族里的Cognos Analytics Data Sets

Data SetsCognos Analytics V11.0.4提供的一种新的数据门户,用于创建一个定制的、用户经常使用的items的集合。Data Setspackagesdata modules中创建。当Data Sets更新后,下次在仪表板或storytelling中使用的也将是最新的Data Sets版本。

通过从一个package或者一个data module中选择一个或多个列的方式定义Data Sets,并且可以使用过滤来减少记录数量。相当于对数据做了一个行和列的过滤,取得数据的子集。数据被提取出来存放在Cognos Analytics系统中。由于数据被缓存了,Data Sets可以提高查询效率,减少数据库的工作负载。也可以用Data Sets为数据保留一个特定时间的版本。

一起来看一下在仪表板中使用Data Sets的基本方法

首先,打开仪表板,选择FM package

1-.jpg

在下面的界面中定义Data Sets的行和列。

2-.jpg

接下来,我们将介绍进阶的使用方法。

汇总明细值,抑制重复

当从package或者data module中创建Data Sets时,可以选择是否汇总明细值,抑制重复。当勾选了这个选项时,测量值会以显式包含在这个Data Sets中的最小粒度做一个汇总。例如,您的数据仓库中可能有一张数百万条记录的销售表,里面记录了各个销售商的销售数量,但是您只想对每个区域的销售数量进行分析。假设您的数据集中只包含了区域销售数量这两列,并且您勾选了汇总明细值,抑制重复,那么这个Data Sets中将只包含和您的区域数量相当的记录数。

请注意观察比较下面的两张图,勾选了汇总的图中“Quantity”列的数值比没有勾选汇总的图中的“Quantity”列的数值大得多,这是因为前者做了一个Group by的汇总计算。

3-.jpg

4-.jpg

使用这个选项的好处是,它可以将数据集压缩到更少的行,这可以带来更好的性能。但是,当您需要在分析中关注信息细节的时候就不要使用这个选项。

刷新Data Sets

通过Cognos Analytics门户,您可以随时改变数据集的列和过滤器。您也可以随时更新它的数据,或者定义一张时间表自动刷新数据,例如每周、每天、每小时或每X分钟。

5-.jpg

Data Sets中创建Data Sets

通常我们是从data module中创建 Data Sets的,但其实也可以从Data Sets中创建Data Sets。每个Data Sets都允许您进一步的连接、汇总和预计算数据。使用这种方法您可以在汇总数据的基础上进一步汇总。您可以将数亿条记录通过汇总削减成更适合专题探索的信息。 

Data Sets的控制

DataSets和包括底层数据库在内的所有系统都是分隔的,因此数据库管理员不必担心对Data Sets的查询会消耗数据库系统的运算资源。通过使用过滤器非常容易控制Data Sets 的大小。Cognos管理员可以限定单个Data Sets的大小和系统上任何一个用户可以占用的总量。Cognos管理员也可以控制谁可以创建Data Sets。如果仪表板使用的Data Sets比较小,那么响应速度就非常快。 

Cognos 环境之间移动Data Sets

可以把Data Sets从一个Cognos Analytics环境转移到另一个环境。如果您需要把开发环境中经过测试的Data Sets发布到生产环境中,首先要在开发环境中创建一个包含了有Data Sets的那些文件夹的“Deployment”。如果希望包含提取的数据,需要勾选“Include reportoutput versions”,否则只有Data Sets 的元数据信息。之后再将这个“Deployment”导入到生产环境中。

Data Sets替换Data Modules的快照模式

Cognos Analytics的先前版本在Data Modules中提供了一个快照模式选项,这种方式会提取所有数据。在11.0.4 中此快照模式不再可用,它已经被Data Sets 替代。在先前版本中设置为快照模式的Data Modules将升级到11.0.4及更高版本中的“live”/“regular” data modules。与现在已弃用的快照模式相比,数据集具有以下优点:

· Data Sets提供了提取汇总值或详细值的选项。

· Data Sets将数据存储为单个表,而快照模块为模块中的每个表存储单独的文件。 在其他条件相同的情况下,不要求Join的查询将更快。

· 可以将Data Modules的子集提取到Data Sets中。

· Data Sets可以按照计划定时刷新。中翰软件专注数据治理11http://www.jobhand.cn/

点击进入》 主数据管理   企业数据治理  信息资源规划  数据安全管理


发表评论 共有条评论
用户名: 密码:
匿名发表