将freebase转储导入Apache-Jena时出现问题

时间:2014-07-08 23:28:45

标签: freebase

我从freebase下载了最新的数据转储 - 它是一个22gb的gzip文件。但是,存档内部只包含一个文件,即1.6gb。

具体来说,当我使用apache-jena(tdbloader)导入压缩的gz文件时,数据不完整。乔治克鲁尼在数据库中失踪了。

编辑:这是我在检查转储时看到的内容:

enter image description here

2 个答案:

答案 0 :(得分:2)

您无法判断未压缩文件使用gzip --list有多大,因为它有错误(并在其手册页上有详细说明)。

http://www.freebsd.org/cgi/man.cgi?query=gzip#end

答案 1 :(得分:1)

像汤姆莫里斯说的那样,

  

你无法判断未压缩文件使用gzip --list有多大,因为它有错误(并在其手册页上记录)。 http://www.freebsd.org/cgi/man.cgi?query=gzip#end

问题是Apache-Jena依赖gzip信息来知道何时停止将文件导入数据库。 freebase网站建议不要解压缩存档,但是由于这个错误,你实际上必须这样做,否则你最终会得到一个不完整的数据库。我会保留这个问题,因为其他人可能会发现这个信息很有用。