我最近获得了Freebase的RDF dump。它是一个压缩的zip文件,大约25GB,但未压缩的版本可以达到250GB。 我已经在EC2实例上进行了设置。
有一条说明如下:
如果您正在编写自己的代码来解析RDF转储,则通常更有效地直接从GZip文件读取,而不是先提取数据然后处理未压缩的数据。
我刚开始研究clj-plaza来查询RDF,现在我想知道如何在不解压缩文件的情况下读取这些数据?
答案 0 :(得分:2)
这样的事情:
(with-open [stream (java.util.zip.GZIPInputStream.
(clojure.java.io/input-stream
(clojure.java.io/file "my-file.zip")))]
(document-to-model stream :ntriple))
应该做的伎俩? (流式传输数据)。