Question

我刚刚开始学习来自Python的Scala。我在Scala中尝试了一个基本的文件处理任务。任务是使用正则表达式从数据文件中删除"[ ... ]"之类的子字符串。该脚本成功处理前几个文件，然后抛出java.lang.OutOfMemoryError: Java heap space错误。发生错误的数据文件大约是70MB，我有16GB的RAM供我使用。（前面的6个文件的文件大小<100Kb，第一个作为例外：5.5MB）。

我的问题是：导致 OutOfMemoryError的原因，以及如何更改我的方法以防止其发生？我不明白为什么会这样做发生。我在调试内存错误方面经验不足，因为Python在内存管理方面相对宽容。

关于编码风格或我使用的方法的任何其他评论都非常受欢迎 - 我很想学习。

Regexer.scala：

import scala.io.Source 
import java.io._

object Regexer {

  def main(args: Array[String]): Unit = {

    val filenames = Source.fromFile("all_files.txt").getLines()

    for (fn <- filenames) {

        val datafile:String = Source.fromFile(fn).mkString

        val new_data:String = datafile.replaceAll(raw"\[.*?\]", "")

        val file = new File(fn)         
        val bw = new BufferedWriter(new FileWriter(file))
        bw.write(new_data)
        bw.close()


    }   
  } 
}

all_files.txt是一个文件，包含要处理的所有文件的路径（因为它们位于子目录中）。

最后，执行时抛出完整的错误消息：

java.lang.OutOfMemoryError: Java heap space
    at java.util.Arrays.copyOf(Arrays.java:3332)
    at java.lang.AbstractStringBuilder.ensureCapacityInternal(AbstractStringBuilder.java:124)
    at java.lang.AbstractStringBuilder.append(AbstractStringBuilder.java:596)
    at java.lang.StringBuilder.append(StringBuilder.java:190)
    at scala.collection.mutable.StringBuilder.appendAll(StringBuilder.scala:249)
    at scala.io.BufferedSource.mkString(BufferedSource.scala:97)
    at Regexer$$anonfun$main$1.apply(Regexer.scala:12)
    at Regexer$$anonfun$main$1.apply(Regexer.scala:10)
    at scala.collection.Iterator$class.foreach(Iterator.scala:893)
    at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)
    at Regexer$.main(Regexer.scala:10)
    at Regexer.main(Regexer.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at scala.reflect.internal.util.ScalaClassLoader$$anonfun$run$1.apply(ScalaClassLoader.scala:70)
    at scala.reflect.internal.util.ScalaClassLoader$class.asContext(ScalaClassLoader.scala:31)
    at scala.reflect.internal.util.ScalaClassLoader$URLClassLoader.asContext(ScalaClassLoader.scala:101)
    at scala.reflect.internal.util.ScalaClassLoader$class.run(ScalaClassLoader.scala:70)
    at scala.reflect.internal.util.ScalaClassLoader$URLClassLoader.run(ScalaClassLoader.scala:101)
    at scala.tools.nsc.CommonRunner$class.run(ObjectRunner.scala:22)
    at scala.tools.nsc.ObjectRunner$.run(ObjectRunner.scala:39)
    at scala.tools.nsc.CommonRunner$class.runAndCatch(ObjectRunner.scala:29)
    at scala.tools.nsc.ObjectRunner$.runAndCatch(ObjectRunner.scala:39)
    at scala.tools.nsc.MainGenericRunner.runTarget$1(MainGenericRunner.scala:65)
    at scala.tools.nsc.MainGenericRunner.run$1(MainGenericRunner.scala:87)
    at scala.tools.nsc.MainGenericRunner.process(MainGenericRunner.scala:98)
    at scala.tools.nsc.MainGenericRunner$.main(MainGenericRunner.scala:103)
    at scala.tools.nsc.MainGenericRunner.main(MainGenericRunner.scala)

Answer 1

您的计算机上可能有16Gib，但这并不意味着JVM可以使用所有这些。 Scala代码（通常）在Java虚拟机（JVM）中运行，它具有自己的内存。您可用的默认内存量可能对您的程序而言太低。可以使用-Xmx选项设置进程的最大可用内存。尝试java -Xmx1024m Regexer或java -Xmx2g Regexer之类的内容，或者您认为应该有多少内存。如果在添加处理文件所需的可用内存后仍然遇到问题，那么您可能会发生内存泄漏，或者您的算法需要进行优化。

在您的特定情况下，不要将整个文件加载到内存中，而是考虑逐行处理，或者其他缓冲量，以便在任何时候您只需要将一小部分文件保留在内存中

Answer 2

不要试图完全加载文件

val datafile:String = Source.fromFile(fn).mkString //this should be the culprit.

如果无法逐行处理，也尝试增加JVM的堆大小。

Answer 3

要添加到puhlen答案，您可以逐行读取文件：

import scala.io.Source
for(line <- Source.fromPath("myfile.txt").getLines())

Scala中OutOfMemoryError的原因是什么？

3 个答案: