在java中处理大量数据

时间:2013-01-26 00:14:10

标签: java large-files

我正在大型数据集上实现聚类算法。数据集位于文本文件中,包含超过1亿条记录。每条记录包含3个数字字段。

1,1503895,4
3,2207774,5
6,2590061,3
...

如果可能,我需要将所有这些数据保存在内存中,因为根据我的聚类算法,我需要随机访问此文件中的记录。因此,我无法执行Find duplicates in large file

中所述的任何分区和合并方法

这个问题的可能解决方案是什么?我可以使用像ehcache这样的缓存技术吗?

1 个答案:

答案 0 :(得分:0)

3亿美元不应该消耗那么多记忆。尝试实例化一个包含3亿个整数的数组。在64位计算机上,我的手计算大约是1.2 GB。