处理大型未排序数据集的回归

时间:2018-06-27 23:34:58

标签: java csv data-structures data-storage

我正在设法解决此问题。比较不同时间或来自不同环境的两个数据集(CSV),并计算和报告它们之间的差异。

这些数据集有一个标识键列,理想情况下应与该键上的列匹配。这些集可能不一定具有相同的记录数,在这种情况下,丢失的数据不会有报告的差异。数据类型都是字符串或浮点数。

对于两个大小为300MB的文件(每个文件大约有500,000条记录),哪种数据结构或读取数据的方法在不耗尽堆内存的情况下是理想的?假定记录不会按标识键排序。存储

的地图
  

{key-> Map {attribute-> [valFile1,valFile2]}} 是我的第一个本能,但是事实证明这效率很低。

0 个答案:

没有答案