标签: java large-files
我正在大型数据集上实现聚类算法。数据集位于文本文件中,包含超过1亿条记录。每条记录包含3个数字字段。
1,1503895,4 3,2207774,5 6,2590061,3 ...
如果可能,我需要将所有这些数据保存在内存中,因为根据我的聚类算法,我需要随机访问此文件中的记录。因此,我无法执行Find duplicates in large file
这个问题的可能解决方案是什么?我可以使用像ehcache这样的缓存技术吗?
答案 0 :(得分:0)