我不想下载250G的freebase数据转储。我不需要这么大的数据。我想提取一小部分数据(一个小域)。这个小子集将使我的迭代变得更快更容易。
有人可以解决我的问题吗?
答案 0 :(得分:1)
夏季的最新(和最后一次)Freebase转储低于30GB,而不是250GB。大多数计算机处理压缩比处理未压缩数据更快,所以你应该在处理之前将其压缩。
zgrep是过滤特定模式的文本文件的好方法。如果您想获得想象力,可以使用一个小程序来解压缩数据并搜索符合您标准的主题实体。
转储文件按主题顺序排序,因此给定主题的所有谓词都将相邻,从而简化了处理(您只需缓冲少量数据,同时决定是否在过滤后的子集中包含特定主题)。