如何使用clj-plaza读取压缩的RDF zip?

时间:2014-08-29 11:34:17

标签: clojure rdf freebase

我最近获得了Freebase的RDF dump。它是一个压缩的zip文件,大约25GB,但未压缩的版本可以达到250GB。 我已经在EC2实例上进行了设置。

有一条说明如下:

  

如果您正在编写自己的代码来解析RDF转储,则通常更有效地直接从GZip文件读取,而不是先提取数据然后处理未压缩的数据。

我刚开始研究clj-plaza来查询RDF,现在我想知道如何在不解压缩文件的情况下读取这些数据?

1 个答案:

答案 0 :(得分:2)

这样的事情:

(with-open [stream (java.util.zip.GZIPInputStream.
                     (clojure.java.io/input-stream
                       (clojure.java.io/file "my-file.zip")))]
  (document-to-model stream :ntriple))

提及plaza.rdf.core

应该做的伎俩? (流式传输数据)。