我正在用相当大的算法评估文本文件中的不同数据。
如果文本文件包含的数据点超过数据点(我需要的最小值是130万个数据点),则会出现以下错误:
Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded
at java.util.regex.Matcher.<init>(Unknown Source)
at java.util.regex.Pattern.matcher(Unknown Source)
at java.lang.String.replaceAll(Unknown Source)
at java.util.Scanner.processFloatToken(Unknown Source)
at java.util.Scanner.nextDouble(Unknown Source)
当我在Eclipse中运行它时,安装的jre6(标准VM)具有以下设置:
-Xms20m -Xmx1024m -XX:MinHeapFreeRatio=20 -XX:MaxHeapFreeRatio=40 -XX:NewSize=10m
-XX:MaxNewSize=10m -XX:SurvivorRatio=6 -XX:TargetSurvivorRatio=80
-XX:+CMSClassUnloadingEnabled
请注意,如果我只运行部分文本文件,它可以正常工作。
现在我已经阅读了很多关于这个主题的内容,似乎某个地方我必须有数据泄漏或者我在数组中存储了太多数据(我认为我这样做)。
现在我的问题是:我该如何解决这个问题?
基本上我正在寻找防止大量内存存储/泄漏的一般指导原则。
答案 0 :(得分:3)
真正关键的vm arg是-Xmx1024m
,它告诉VM最多使用1024兆字节的内存。最简单的解决方案是在那里使用更大的数字。假设您的计算机中有足够的RAM来处理它,您可以尝试-Xmx2048m
或-Xmx4096m
或任意数字。
我不确定你是否从其他任何VM args中获得了很多好处。在大多数情况下,如果你告诉Java要使用多少空间,那么其他参数就会很聪明。我建议删除除-Xmx
param之外的所有内容,看看它是如何执行的。
更好的解决方案是尝试改进您的算法,但我还没有详细阅读它以提供任何建议。
答案 1 :(得分:3)
正如你所说的那样,数据大小真的非常大,如果它甚至在使用-Xmx
jvm参数后仍然不适合一台计算机内存,那么你可能想要转移到集群计算,使用许多计算机工作你的问题。为此,您必须使用消息传递接口(MPI
)。
MPJ Express
是Java的MPI
非常好的实现,或者像C / C ++这样的语言,MPI
存在一些很好的实现,例如Open MPI
和{{} 1}}。我不确定它是否会在这种情况下对你有所帮助,但肯定会在未来的项目中帮助你。
答案 2 :(得分:1)
我建议你