大小为30 gb的大型文件中的最大重复单词最佳方法

时间:2019-06-15 20:58:14

标签: java large-files fileinputstream

我能够为一小块文件运行程序,但是如果文件很大,并且我们没有那么多的内存,那么我们将耗尽内存,这是解决此问题的最佳方法这样就可以使用相同的算法在内存中完成

CA$

我在处理如此大的文件方面经验不足。 我能想到的一个想法

  1. 将此文件读取为1GB的块 然后在此找到每个成员的频率计数 并写入另一个文件

  2. 然后再次读取下一个1GB的块 查找每个成员的频率计数 写入另一个文件

  3. 合并这两个文件并获取键值对

重复步骤1 2和3

但是现在确定,如果我将如何对此代码进行编码

0 个答案:

没有答案