加载wikidata转储

时间:2017-01-12 09:36:46

标签: wikidata wikidata-api

我从wikidata json dump加载所有地理条目(Q56061)。 根据维基数据:统计页面,整个转储包含大约16M条目。

使用python3.4 + ijson + libyajl2需要大约93小时的CPU(AMD Phenom II X4 945 3GHz)时间来解析文件。 使用在线顺序项目查询总计230万个感兴趣的条目需要大约134个小时。

是否有更优化的方式来执行此任务? (也许,像openstreetmap pdf格式和渗透工具)

1 个答案:

答案 0 :(得分:0)

我的加载代码和估算错误。

使用ijson.backends.yajl2_cffi可以提供大约15个小时的完整解析+过滤+存储到数据库。