我正在设法解决此问题。比较不同时间或来自不同环境的两个数据集(CSV),并计算和报告它们之间的差异。
这些数据集有一个标识键列,理想情况下应与该键上的列匹配。这些集可能不一定具有相同的记录数,在这种情况下,丢失的数据不会有报告的差异。数据类型都是字符串或浮点数。
对于两个大小为300MB的文件(每个文件大约有500,000条记录),哪种数据结构或读取数据的方法在不耗尽堆内存的情况下是理想的?假定记录不会按标识键排序。存储
的地图{key-> Map {attribute-> [valFile1,valFile2]}} 是我的第一个本能,但是事实证明这效率很低。