应用错误收集

如何为一种语言过滤Wikidata dump？

时间：2019-06-08 11:02:23

标签： pyspark apache-spark-sql rdf wikidata

我已经以RDF格式（.nt.bz2文件）下载了Wikidata真实转储。我想将转储的语言限制为仅英语，并将此经过筛选的新转储作为新的.nt文件生成。

我尝试使用并行grep来过滤带有'@en'文本的行，但是这会占用大量处理时间。

是否有一些更快的方法来生成过滤的转储？像使用Spark吗？

1 个答案:

答案 0 :(得分：0)

也许对您来说有点晚了，但是与此同时，生成了一个用于创建自定义转储的工具：https://tools.wmflabs.org/wdumps/

使用此工具，您可以在线定义语言过滤器，然后下载仅包含相关三元组的.nt文件。