包含.csv中变量的散列行的java解决方案

时间:2012-09-09 15:30:41

标签: java sorting hash lines

我有一个文件,代表以.csv或类似格式录制的表格。表可能包含缺失值。 我寻找一个解决方案(最好是在java中),它将以增量方式处理我的文件而不将所有内容加载到内存中,因为我的文件可能很大。我需要在我的文件中识别重复记录,能够指定我想要排除的列;然后生成一个输出分组那些重复的记录。我会在末尾添加一个附加值,其中包含一个组编号,并以相同的格式(.csv)按组编号排序。

我希望通过一些散列函数可以找到有效的解决方案。例如,读取所有行并使用每个行号存储散列值,根据我提供的变量集作为输入计算散列。

有什么想法吗?

1 个答案:

答案 0 :(得分:0)

好的,这里是the paper,它是答案的关键:P。Gopalan& J. Radhakrishnan“在数据流中查找重复项”。