应用错误收集

我有一个文件，代表以.csv或类似格式录制的表格。表可能包含缺失值。我寻找一个解决方案（最好是在java中），它将以增量方式处理我的文件而不将所有内容加载到内存中，因为我的文件可能很大。我需要在我的文件中识别重复记录，能够指定我想要排除的列;然后生成一个输出分组那些重复的记录。我会在末尾添加一个附加值，其中包含一个组编号，并以相同的格式（.csv）按组编号排序。

我希望通过一些散列函数可以找到有效的解决方案。例如，读取所有行并使用每个行号存储散列值，根据我提供的变量集作为输入计算散列。

有什么想法吗？

包含.csv中变量的散列行的java解决方案

1 个答案: