我正在使用我需要构建直方图的大型数据集。我觉得我的方法只是通过整个列表并在第二个数组中标记频率是一个缓慢的方法。关于如何加快进程的任何建议?
答案 0 :(得分:2)
鉴于直方图是包含每个箱子中所有物品的计数的图表,你不能在不访问所有物品的情况下制作一个。
但是,您可以:
在收集数据时创建直方图。然后它就没时间生成了。
将数据分解为N个部分,并行处理每个部分。当每个部分完成计数时,只需对每个部分的结果求和。 (您也可以将此与#1结合使用)
对数据进行采样。理论上,查看一小部分数据,您应该能够估计其余数据。 The Math