Question

我正在大型数据集上实现聚类算法。数据集位于文本文件中，包含超过1亿条记录。每条记录包含3个数字字段。

1,1503895,4
3,2207774,5
6,2590061,3
...

如果可能，我需要将所有这些数据保存在内存中，因为根据我的聚类算法，我需要随机访问此文件中的记录。因此，我无法执行Find duplicates in large file

中所述的任何分区和合并方法

这个问题的可能解决方案是什么？我可以使用像ehcache这样的缓存技术吗？

Answer 1

3亿美元不应该消耗那么多记忆。尝试实例化一个包含3亿个整数的数组。在64位计算机上，我的手计算大约是1.2 GB。