我从wikidata json dump加载所有地理条目(Q56061)。 根据维基数据:统计页面,整个转储包含大约16M条目。
使用python3.4 + ijson + libyajl2需要大约93小时的CPU(AMD Phenom II X4 945 3GHz)时间来解析文件。 使用在线顺序项目查询总计230万个感兴趣的条目需要大约134个小时。
是否有更优化的方式来执行此任务? (也许,像openstreetmap pdf格式和渗透工具)
答案 0 :(得分:0)
我的加载代码和估算错误。
使用ijson.backends.yajl2_cffi
可以提供大约15个小时的完整解析+过滤+存储到数据库。