谷歌正式上线数据集搜索引擎Dataset Search

IT资讯 TOMORROW 3个月前 (09-07) 257次浏览 0个评论 扫描二维码

继谷歌学术后,谷歌正式推出新的搜索服务:数据集搜索引擎 Dataset Search,Google Dataset Search 为用户提供了能够同时搜索多个存储区的单个界面,希望借此改变用户发布和运用数据的方式。

Dataset Search 网址:https://toolbox.google.com/datasetsearch(需要翻墙)

现在,就让我们来一起看下这款搜索工具。

与 Google Scholar 类似,Google Dataset Search 可方便用户查找托管在任何位置的数据集,无论是出版网站、数字图书馆还是作者的个人网页

为了创建 Dataset Search,Google 还为数据集提供方制定了一套数据指南(https://developers.google.com/search/docs/data-types/dataset)。这些指南包括有关数据集的重要信息:数据集的作者,发布时间,数据收集方式,使用数据的条款等等。然后,Google 收集并链接这些信息,分析同一数据集的不同版本可能在哪里,并找到可能描述或讨论这一数据集的出版物。

Google 的指南是基于一个数据集的开放标准(schema.org),任何发布数据的人都可以通过这种方式描述他们的数据集。

在这个新版本中,用户可以找到很多环境和社会科学相关的数据集,以及其他学科的数据,包括政府数据和新闻机构提供的数据,如 ProPublica。随着越来越多的数据仓库使用 schema.org 标准来描述他们的数据集,Google Dataset Search 能够搜索到的数据集的种类和覆盖面将持续增长。

目前 Google Dataset Search 已经支持多种语言,笔者尝试了下,除了英文,还支持中文。

我们先尝试下英文搜索,如果你想分析天气记录,那么就可以在 Google Dataset Search 的输入栏里尝试输入“daily weather”,结果如下图所示:       谷歌正式上线数据集搜索引擎 Dataset Search       

可以看到,左边栏呈现的是各种数据源,右边则是相应的介绍,包括数据集的名称、下载链接、更新日期、提供者、说明等等,非常清晰。

现在,我们来尝试下中文,在搜索栏输入“房价”,第一条就是中国房价的数据集,该数据集由 CEIC 提供,涵盖的时间段从 2017 年 7 月 1 日  — 2018 年 6 月 1 日,算是非常新的数据了。

       谷歌正式上线数据集搜索引擎 Dataset Search       

打开该数据集的链接,嗯,是个收费网站。不过,花钱能解决的事,总比毫无头绪来得好。

      

Dataset Search 的发布凸显了 Google 对数据集的重视。最近,Google 也对自家的 Google Search 也进行了改进,使得用户搜索结果中发现表格数据变得更加容易,不过该计划更侧重于新闻机构和数据记者,而 Dataset Search 的受众则更加广泛。

Google 表示,这个项目能够带来下列好处:

  • a) 形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;
  • b) 为科学家提供相应平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。

当然,Google Dataset Search 的搜索质量取决于数据发布者,因此,如果大家都用开放标准来描述自己的数据,那么搜索结果肯定会越来越好。

Google Dataset Search 目前仍处于测试阶段,虽然支持中文搜索,但中国大陆的用户想要使用依然需要“梯子”,不过这么好的工具,错过岂不可惜!

 


TOMORROW 星辰 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:谷歌正式上线数据集搜索引擎 Dataset Search
喜欢 (0)
TOMORROW
关于作者:
TOMORROW星辰第一作者。如有疑问或者发现错误,请留言作者。
高挑的鸵鸟发表我的评论  如需接收评论回复通知,请填写正确的 个人信息
取消评论
表情 加粗 斜体 签到