我想从Freebase dump中提取所有公司。但是转储中似乎缺少多个实例。
例如,大众汽车(/m/07ywl
)似乎不包括在内。我使用以下正则表达式搜索MID但找不到任何结果:
zgrep 'rdf\.freebase\.com/ns/m\.07ywl>' freebase-rdf.gz > res.rdf
MID应该是有效的,因为它在相应的Wikidata page上说明,并且是大众汽车在使用知识图谱API搜索时的最佳结果:
https://kgsearch.googleapis.com/v1/entities:search?query=volkswagen&key=<API-KEY>&limit=5&indent=True
答案 0 :(得分:2)
我在Ubuntu 18.04上遇到了同样的问题,因为zgrep将解压缩的数据解释为二进制,并且在搜索时未正确解码文本。使用-a
标志为我解决了这个问题:
zgrep -a 'rdf\.freebase\.com/ns/m\.07ywl>' freebase-rdf.gz
答案 1 :(得分:0)
该实体存在于freebase-rdf-2015-04-19-00-00.gz
中,所以如果几个月之后(2015-08-09)最终转储中不存在该实体,我会感到非常惊讶,因为数据库已被写入锁定状态除了一些谷歌管理员以外的所有人。
我的第一个猜测是你有一个截断或损坏的下载。你下载后检查了长度和MD5校验和吗?