原標(biāo)題:谷歌數(shù)據(jù)集搜索正式版出爐:全面升級(jí),覆蓋2500萬數(shù)據(jù)集 來源:騰訊新聞
機(jī)器之心報(bào)道
參與:李澤南、一鳴
公開數(shù)據(jù)集往往存在于論文和網(wǎng)站數(shù)據(jù)庫中,想要找到它們需要花費(fèi)一番功夫。除了機(jī)器之心 SOTA以外,搜索公開數(shù)據(jù)集的搜索引擎仍然比較少——除了谷歌的數(shù)據(jù)集搜索工具以外。
近日,谷歌宣布,它們的數(shù)據(jù)集搜索引擎不再是 beta 版了。這意味著該產(chǎn)品已經(jīng)正式向用戶們開放使用。Jeff Dean 和谷歌官方都在推特上宣布了這一消息。
谷歌數(shù)據(jù)集搜索的 beta 版本早在 2018 年 9 月就上線了,該引擎面向「科學(xué)家、開發(fā)者、數(shù)據(jù)極客等人群」,一直以來都是人們尋找數(shù)據(jù)集的主要方式之一。
鏈接:datasetsearch.research.google/
谷歌表示,經(jīng)過一年多的努力,數(shù)據(jù)集搜索功能的階段性測試已經(jīng)完成。
如果你在數(shù)據(jù)集搜索上輸入「skiing」,會(huì)出現(xiàn)的結(jié)果:出現(xiàn)了從最快的滑雪運(yùn)動(dòng)員到滑雪地的收入數(shù)據(jù)集等不同類型。
正式版更新了什么?
谷歌從用戶在 Beta 版的使用中獲得了很多經(jīng)驗(yàn)。在正式版中,你可以根據(jù)所需的數(shù)據(jù)集類型(表格、圖片、文本等),或者數(shù)據(jù)集是否可以免費(fèi)獲取等條件來進(jìn)行搜索。如果數(shù)據(jù)集是關(guān)于某個(gè)地區(qū)的,你也可以通過地圖進(jìn)行查找。另外,現(xiàn)在搜索也做了移動(dòng)端的適配,并大幅改善了數(shù)據(jù)及描述的質(zhì)量。任何數(shù)據(jù)集發(fā)布者都可以通過 schema.org 開放標(biāo)準(zhǔn)在自己的網(wǎng)站上進(jìn)行規(guī)范性描述,以提高搜索結(jié)果的質(zhì)量。
對于不同的學(xué)科來說,人們進(jìn)行的搜索是完全不同的:科學(xué)家會(huì)尋找研究目標(biāo)(如搜索催產(chǎn)素),學(xué)生會(huì)搜索包含自己作業(yè)主題的關(guān)鍵字,業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家會(huì)尋找移動(dòng) app 或快餐店銷售的數(shù)據(jù)……今天,所有這些內(nèi)容都有數(shù)據(jù)集。
谷歌表示,目前人們在數(shù)據(jù)集搜索上查詢頻率最高的詞是「教育」、「天氣」、「癌癥」、「犯罪」、「足球」以及「狗」。
搜索「快餐店」出現(xiàn)的結(jié)果索引。
哪些數(shù)據(jù)集可以找到?
數(shù)據(jù)集搜索引擎可以提供數(shù)據(jù)集的快照信息,特別是有關(guān)地理信息、生物和農(nóng)業(yè)方面的信息。很多信息都來自于 schema.org,只要網(wǎng)絡(luò)上存在的數(shù)據(jù)集符合 schema 的開放標(biāo)準(zhǔn),搜索引擎就可以搜索到。
除了公開數(shù)據(jù)之外,數(shù)據(jù)集搜索引擎還包括了很多政府公開數(shù)據(jù),包括美國政府超過兩百萬的數(shù)據(jù)集。絕大部分的公開數(shù)據(jù)都是以表格形式存儲(chǔ)的,可以很容易地下載并進(jìn)行處理。
使用體驗(yàn)
機(jī)器之心嘗試了這一數(shù)據(jù)集搜索工具。例如,我們在搜索欄里輸入了 CIFAR,搜索引擎很容易就提供了 CIFAR-10 和 CIFAR-100 兩個(gè)數(shù)據(jù)集的搜索結(jié)果,并附帶數(shù)據(jù)集全名、被引用數(shù)量、更新時(shí)間、提供者、下載方式、介紹和信息來源等。
如果我們不知道數(shù)據(jù)集叫什么名字,但是想看看有沒有某種數(shù)據(jù)的數(shù)據(jù)集呢?機(jī)器之心嘗試了一些不常用關(guān)鍵詞,如「Chinese Poem」(中國詩歌)。
搜索結(jié)果也還不錯(cuò),提供了相當(dāng)多的數(shù)據(jù)集,包括數(shù)據(jù)集所在的論文等。
下一步計(jì)劃
項(xiàng)目團(tuán)隊(duì)表示,他們會(huì)繼續(xù)優(yōu)化數(shù)據(jù)集搜索這項(xiàng)產(chǎn)品,并歡迎用戶提出進(jìn)一步改進(jìn)建議。
參考鏈接:
blog.google/products/search/discovering-millions-datasets-web/
reddit/r/MachineLearning/comments/etdiz9/n_googles_dataset_search_is_out_of_beta/
本文為機(jī)器之心報(bào)道,轉(zhuǎn)載請聯(lián)系本公眾號(hào)獲得授權(quán)。
------------------------------------------------