Clojure - 处理内存不足的大文件

时间:2015-12-17 08:25:23

标签: clojure memory-efficient file-processing

我正在处理60GB或更大的文本文件。这些文件分成可变长度的标题部分和数据部分。我有三个功能:

  • head?用于区分标题行和数据行的谓词
  • process-header处理一个标题行字符串
  • process-data处理一个数据行字符串
  • 处理功能异步访问和修改内存数据库

我从另一个SO线程推进了一个文件读取方法,它应该构建一个懒惰的行序列。想法是用一个函数处理一些行,然后切换一次函数并继续处理下一个函数。

(defn lazy-file
  [file-name]
  (letfn [(helper [rdr]
            (lazy-seq
             (if-let [line (.readLine rdr)]
               (cons line (helper rdr))
               (do (.close rdr) nil))))]
    (try
      (helper (clojure.java.io/reader file-name))
      (catch Exception e
        (println "Exception while trying to open file" file-name)))))

我使用类似

的东西
(let [lfile (lazy-file "my-file.txt")]
  (doseq [line lfile :while head?]
    (process-header line))
  (doseq [line (drop-while head? lfile)]
    (process-data line)))

虽然这样可行,但由于以下几个原因,效率相当低:

  • 我不必简单地调用process-head直到我到达数据然后继续process-data,我必须过滤标题行并处理它们,然后重新解析整个文件并删除所有标题行以处理数据。这与lazy-file打算做的完全相反。
  • 观察内存消耗告诉我,该程序虽然看起来很懒惰,但可以使用尽可能多的RAM来保存文件在内存中。

那么使用我的数据库的更有效,惯用的方法是什么?

一个想法可能是使用多方法来处理依赖于head?谓词值的头和数据,但我认为这会产生一些严重的速度影响,特别是因为只有一个出现谓词结果从总是真的变为总是假的。我还没有确定基准。

使用另一种方法构建line-seq并使用iterate解析它会更好吗?这仍然需要我使用:while和:drop-while,我猜。

在我的研究中,曾多次提到使用NIO文件访问,这应该可以提高内存使用率。我还无法找到如何在clojure中以惯用的方式使用它。

也许我仍然不了解一般的想法,应该如何对待文件?

与往常一样,非常感谢任何有关tuts的帮助,想法或指示。

2 个答案:

答案 0 :(得分:2)

您应该使用标准库函数。

line-seq,with-open和doseq很容易完成这项工作。

以下内容:

(with-open [rdr (clojure.java.io/reader file-path)]
  (doseq [line (line-seq rdr)]
    (if (head? line)
      (process-header line)
      (process-data line))))

答案 1 :(得分:0)

这里有几点需要考虑:

  1. 内存使用

    有报道说leiningen可能会添加一些能够保持对头部的引用的东西,尽管doseq特别不会保留它正在处理的序列的头部,参见this SO question。尝试验证您的声明“使用尽可能多的RAM来保存文件在内存中”而不使用lein repl

  2. 解析线

    您可以使用doseq方法,而不是使用loop/recur的两个循环。你希望解析的是第二个这样的参数(未经测试):

        (loop [lfile (lazy-file "my-file.txt")
               parse-header true]
           (let [line (first lfile)]
                (if [and parse-header (head? line)]
                    (do (process-header line)
                        (recur (rest lfile) true))
                    (do (process-data line)
                        (recur (rest lfile) false)))))
    

    此处还有另一个选项,即将处理功能合并到文件读取功能中。因此,不仅仅是cons换行并返回它,您也可以立即处理它 - 通常您可以将处理函数作为参数移交而不是硬编码。

    您当前的代码看起来像处理副作用。如果是这样的话,如果你加入处理,那么你可能会消除懒惰。您无论如何都需要处理整个文件(或者看起来如此),并且您是按行进行的。 lazy-seq方法基本上只是将单行读取与单个处理调用对齐。在当前的解决方案中出现了对懒惰的需求,因为您将读取(整个文件,逐行)与处理分开。如果您改为将一条线的处理移动到读数中,则不需要懒惰地进行。