我从freebase下载了最新的数据转储 - 它是一个22gb的gzip文件。但是,存档内部只包含一个文件,即1.6gb。
具体来说,当我使用apache-jena(tdbloader)导入压缩的gz文件时,数据不完整。乔治克鲁尼在数据库中失踪了。
编辑:这是我在检查转储时看到的内容:
答案 0 :(得分:2)
您无法判断未压缩文件使用gzip --list
有多大,因为它有错误(并在其手册页上有详细说明)。
答案 1 :(得分:1)
你无法判断未压缩文件使用gzip --list有多大,因为它有错误(并在其手册页上记录)。 http://www.freebsd.org/cgi/man.cgi?query=gzip#end
问题是Apache-Jena依赖gzip信息来知道何时停止将文件导入数据库。 freebase网站建议不要解压缩存档,但是由于这个错误,你实际上必须这样做,否则你最终会得到一个不完整的数据库。我会保留这个问题,因为其他人可能会发现这个信息很有用。