我已经以RDF格式(.nt.bz2文件)下载了Wikidata真实转储。我想将转储的语言限制为仅英语,并将此经过筛选的新转储作为新的.nt文件生成。
我尝试使用并行grep来过滤带有'@en'文本的行,但是这会占用大量处理时间。
是否有一些更快的方法来生成过滤的转储?像使用Spark吗?
答案 0 :(得分:0)
也许对您来说有点晚了,但是与此同时,生成了一个用于创建自定义转储的工具:https://tools.wmflabs.org/wdumps/
使用此工具,您可以在线定义语言过滤器,然后下载仅包含相关三元组的.nt文件。