搜索获得更小的rdf(n3)数据集的方法

时间:2012-05-24 22:52:32

标签: c++ dataset rdf rdfstore

我已下载yago.n3数据集

然而,对于测试,我希望处理较小版本的数据集(因为数据集为2 GB),即使我做了一些小改动,也需要花费大量时间进行调试。

因此,我尝试复制一小部分数据并创建一个单独的文件,但这不起作用并引发词汇错误。

我看到了之前的帖子,但是之前的帖子是关于大数据集的,而我正在寻找较小的数据集。

我是否有办法获得较少量的相同数据集?

1 个答案:

答案 0 :(得分:3)

如果您手头有一个RDF解析器来读取您的yago.n3文件,您可以解析它并在单独的文件上写入您想要/需要的较小数据集的RDF三元组来运行您的实验。

如果您找到一些N-Triples格式的数据(即每行一个RDF三元组),您可以根据需要选择尽可能多的行,并使数据集尽可能小:head -n 10 filename.nt将给出你是一个10个三元组的小数据集。