数据空间
您当前的位置: 首页 /新闻资讯

政府“开放数据”访问量低?可能是数据不“对味”

发布时间:[2017-11-16] 来源:网络大数据 点击量:

  中国企业数据治理联盟www.chinaedg.com/

  进入》主数据管理      企业数据治理       信息资源规划        数据安全管理

     中国有越来越多的城市开始向公众开放各类数据,但这些数据真的是市民们所需要的吗?市民对什么类型的数据需求最大?在最早推动开放数据的美国,一家名为阳光基金会的机构前段时间发布了一份报告,给出了一份当地居民最欢迎的开放数据类型排名,或对中国城市有所启示。

  美国的政府开放数据中,哪些数据最受居民欢迎?

  在2017年, 美国各地方政府及州政府发布的开放数据”(Open Data)类型几乎无所不包,涵盖了日常生活的方方面面。然而我们并不知道居民们如何看待和使用这些巨量的公共信息。

  随着地方政府越来越多地为居民提供获取公共数据的便捷渠道,政府应该优先考虑提供开放哪些类型的数据?

  为了弄清楚人们最感兴趣的数据类型,我们分析了全美范围内141个城市/州政府提供的总计2.1万份开放数据集的文本描述部分,并根据被浏览与下载的次数对这些开放数据集的热门程度进行了打分,结果如下:

3.jpg

  如图,结果显示,最受居民欢迎的10开放数据类型依次为:1. 警察与犯罪;2. 交通运输;3. 紧急呼叫;4. 住房与经济发展;5. 建筑安全;6. 政府财政;7. 竞选活动;8. 营业执照与政府采购; 9. 服务与监察;10. 学校与教育。

  ▍怎样获得关于开放数据相关的数据

  我们怎样才能知道哪种类型的开放数据最热门呢?幸运的是,有关开放数据的数据也是开放的。

  为了尽可能多地收集各个城市/州的开放数据信息,我们找到了一个在线开放数据网站Socrata,该网站能够给我们提供关于开放数据的浏览、下载量,以及大量的描述性文本信息。

  此外,我们使用SocrataAPI接口来获取和整合那些在Socrata平台上发布过公开数据集的地方政府信息。

  由于时间和数据可获取性的限制,我们只分析了在Socrata平台上能够获取的数据。这项研究是中立的一项研究,不带有倾向性。

  虽然Socrata不是唯一提供这种开放数据信息的平台,但它是最大并且被广泛使用的,因此,我们才会选择Socrata作为我们的数据源。

  ▍同样的数据集,地方政府却用了不同的文字描述

  收集数据是一件容易的事,但很快我们便发现了问题:针对同一种数据集,不同的城市采用了不同的文字描述。

  例如,有一个城市的政府将他们年度预算命名为“Fiscal Year 2017”(2017年度财务),另一个可能会叫它 “2017 Budget”(2017预算)。因此,我们需要找到一种方式来整合有着不同文字描述的相同主题类型。

  我们的解决方法是通过机器学习算法,将意义相近的词语整合成一组,一组即一个主题。

  通过这种方法,我们获得了52个主题 。每个主题都包含了许多密切相关的词语,例如火灾警察紧急事件,或是许可建筑建造等。

  我们还能够利用机器学习的算法,根据某个数据集的文字描述来确定这个数据集属于哪一类主题。最终我们将所有(超过2.1万份)数据集整合进了这52类主题中。

  ▍大城市的开放数据自带流量包,须剔除干扰因素

  一旦我们将数据整合进了各个主题类型中,归好了类,我们便希望了解哪些数据最受人们关注。

  然而,如果仅仅是根据用户对于某主题类型数据的总下载量和浏览次数来确定某一主题的热门程度,那些比其他城市拥有更多交通总量的交通枢纽城市——例如纽约、洛杉矶,自然会拥有过高的数据浏览和下载热度。此时,最终的分析结果会受到影响。

  为了减少大城市过高的热度对于整体分析结果带来的偏差,我们首先计算了数据集某一主题类型的数据被浏览以及下载的总次数,然后通过计算这个总次数的自然对数来抑制这些大城市的热度。据此,最终我们计算了所有城市各主题的数据,对其进行对数运算来消除大城市过高热度的影响,然后再进行比较,最终得出结论。

  ▍公共安全和交通数据最为热门

  一旦我们知道了如何整合那些名称不同却涵盖相似内容的数据集,并且找到测量这些数据集热度的有效方法,我们便可以开始对各主题的热度进行比较了。具体的热度排名列表你可以在我们的github主页获得。(获取方式在文末)

  由于我们的打分系统是人工的, 我们可以不用过多关注不同数据集热度评分间的微小差别。例如建筑许可”(584)并不一定就比年度财务预算”(582)或者竞选活动”(572)更加热门。

  更确切地说,我们的评分排序系统更像是将各类数据主题类型按热度分为了不同组别,例如犯罪报告个人交通以及公共安全保障系统都处于热门组当中。

  即便如此,在尝试了多种不同的关于热度的算法后,我们还是会发现公共安全交通运输数据集始终处于热门位置(DT君注:若对不同打分算法的细节感兴趣,文末可获取完整代码)

  ▍结论的局限性

  正如之前所说,我们只收集了Socrata平台上的数据,若将其他数据来源同时考虑,最后的分析结果可能会有所不同。

  我们使用随机的概率算法来聚合拥有相似主题的数据集,因此我们的模型每次运行的结果,即产生的主题会有差异。为了此次研究的可复制性,我们需要将某一版本的模型过程进行存储。因此对于我们获得的评分结果,需要对照着我们20178月公布的数据主题类型列表来理解。当然,我们非常鼓励人们使用和完善我们的模型(DT君注:获取方式在文末)

  我们的匹配算法并不是完美的。同一个数据集通常会同时和多个主题相关。此外,有一些词汇在不相关的数据集中也经常同时出现,或者是在不同情境下含义大不相同。确实存在一些数据集被归入了错误主题的现象,但我们相信错误率已经达到最低。

  我们使用的数据并非来自控制实验(理想的控制实验是:控制变量,随机抽取受试者样本并了解他们对各类数据集的感兴趣情况)。事实上,我们用来衡量各类数据集热度的下载、浏览量的数据,还会受到这些数据所在的网站的界面设计等很多因素的影响。

  ▍我们的评分结果对各级政府的启示

  我们在研究中发现,不同地区的热门数据集类型相差甚远,部分原因可能是受限于不同的政府所选择开放的数据集种类不同。但我们认为最热门的这些数据集类型无疑展现了当地居民的偏好和需求,城市与各州政府在选择发布什么样的开放数据时,应该向当地居民以及社区领袖咨询意见。

  我们希望此次的研究结果能够对政府发布不同数据集类型的优先顺序起到指导作用,那些认为政府网站上发布的开放数据很有用的居民很大可能会再次从政府网站了解所需数据,并将其推荐给其他人。当一个城市发布的开放数据从一开始就迎合了市民的信息需求,这个开放数据项目后续的进展会更加顺利。

  此外,即使是拥有成熟的开放数据项目的城市,也在持续优化其向市民提供开放数据的类型和方式。我们希望这份报告能够促进当地政府或组织将热门公开数据整合。

  当公开的政府数据能够真正反映和满足社区居民需求时,它们能起到最好的效果。不管一个城市政府的开放数据项目进行到了什么程度,是刚开始运作还是已经成熟,希望我们的这份研究报告能够促进新的数据集类型的开放和新工具的研发。中翰软件专注数据治理11http://www.jobhand.cn/


发表评论 共有条评论
用户名: 密码:
匿名发表