应用错误收集

我正在设法解决此问题。比较不同时间或来自不同环境的两个数据集（CSV），并计算和报告它们之间的差异。

这些数据集有一个标识键列，理想情况下应与该键上的列匹配。这些集可能不一定具有相同的记录数，在这种情况下，丢失的数据不会有报告的差异。数据类型都是字符串或浮点数。

对于两个大小为300MB的文件（每个文件大约有500,000条记录），哪种数据结构或读取数据的方法在不耗尽堆内存的情况下是理想的？假定记录不会按标识键排序。存储

的地图

{key-> Map {attribute-> [valFile1，valFile2]}} 是我的第一个本能，但是事实证明这效率很低。