我有一个文件,代表以.csv或类似格式录制的表格。表可能包含缺失值。 我寻找一个解决方案(最好是在java中),它将以增量方式处理我的文件而不将所有内容加载到内存中,因为我的文件可能很大。我需要在我的文件中识别重复记录,能够指定我想要排除的列;然后生成一个输出分组那些重复的记录。我会在末尾添加一个附加值,其中包含一个组编号,并以相同的格式(.csv)按组编号排序。
我希望通过一些散列函数可以找到有效的解决方案。例如,读取所有行并使用每个行号存储散列值,根据我提供的变量集作为输入计算散列。
有什么想法吗?