应用错误收集

Java数据结构有5亿（双）值？

时间：2013-03-02 06:18:58

标签： java data-structures graph heap-dump

我正在生成具有32678个顶点的完整图形的随机边。所以，5亿+价值。

我使用HashMap将边作为键，使用随机边权重作为值。我一直遇到：

线程“main”中的异常java.lang.OutOfMemoryError：Java堆空间在java.lang.StringBuilder.toString（StringBuilder.java:430）at pa1.Main.main（Main.java:19）上的pa1.Graph。（Graph.java:60）

此图表将用于构建最小生成树。

关于更好的数据结构或方法的任何想法？

我知道有更多的内存来分配更多的内存，但我更喜欢一个按原样运行的解决方案。

2 个答案:

答案 0 :(得分：4)

HashMap非常大，因为它将包含Doubles（大写字母D），大大超过8个字节。（更不用说Entry）取决于实现和CPU芯片，但我认为每个至少16个字节，可能更多？

我认为您应该考虑将主要数据保留在一个巨大的double[]中（或者，如果您可以节省一些准确性，float[]）。这可以减少2倍或4倍的内存使用量。（500M浮点数仅为“2GB”）然后使用整数索引到此数组中来实现边和顶点。例如，边可以是int [2]。这远离O-O，这里有一些严肃的挥手。（我不明白你想要做的所有细微差别）

非常“老式”的风格，但需要更少的记忆。

更正 - 我认为边可能是int [4]，顶点是int [2]。但是你明白了。实际上，对于边和顶点，您将拥有较少数量的对象，对于它们，您可以使用“真实”对象，地图等...

答案 1 :(得分：3)

由于它是一个完整的图形，因此毫无疑问边缘是什么。如何将这些边缘的标签存储在以某种方式排序的简单列表中？所以例如如果你有5个节点，边缘的权重将按如下方式排序：{1,2}, {1,3} {1,4} {1,5} {2,3} {2,4} {2,5} {3,4} {3,5} {4,5}。

然而，正如@ BillyO'Neal指出的那样，这可能仍会占用8 GB的空间。您可能希望将此列表拆分为多个文件，同时维护这些文件的索引，建议一组权重在一个文件中结束的位置以及下一组权重开始的位置。

此外，鉴于您正在为图表找到MST，您可能还想查看以下文章：http://cvit.iiit.ac.in/papers/Vibhav09Fast.pdf。本文似乎基于Boruvka的算法（http://en.wikipedia.org/wiki/Bor%C5%AFvka's_algorithm; http://iss.ices.utexas.edu/?p=projects/galois/benchmarks/mst）。