我已下载yago.n3数据集
然而,对于测试,我希望处理较小版本的数据集(因为数据集为2 GB),即使我做了一些小改动,也需要花费大量时间进行调试。
因此,我尝试复制一小部分数据并创建一个单独的文件,但这不起作用并引发词汇错误。
我看到了之前的帖子,但是之前的帖子是关于大数据集的,而我正在寻找较小的数据集。
我是否有办法获得较少量的相同数据集?
答案 0 :(得分:3)
如果您手头有一个RDF解析器来读取您的yago.n3文件,您可以解析它并在单独的文件上写入您想要/需要的较小数据集的RDF三元组来运行您的实验。
如果您找到一些N-Triples格式的数据(即每行一个RDF三元组),您可以根据需要选择尽可能多的行,并使数据集尽可能小:head -n 10 filename.nt将给出你是一个10个三元组的小数据集。