我目前正在开展一个项目,我必须将其归结为10维数据。这对numpy.histogramdd完全没问题,但是有一个有严重的障碍:
我的参数空间非常大,但实际上只有一小部分存在于数据中(例如,可能只有几个%左右......)。在这些地区,数据非常丰富,所以我想使用相对较小的箱宽。然而,这里的问题是RAM的使用完全爆炸。我看到只有5个尺寸使用20GB +,这已经绝对不实用了。我自己尝试定义网格,但问题仍然存在......
我的想法是手动指定bin边缘,其中我只使用非常大的bin宽度用于数据空间中的空区域。只有在我实际拥有数据的地区,我才需要更精细的规模。
我想知道这里是否有人知道这种实现已经在任意数量的维度上工作。
谢谢
答案 0 :(得分:1)
我认为您应首先重新映射数据,然后创建直方图,然后在知道值已转换的情况下解释直方图。一种可能性是调整直方图刻度标签,以便它们显示映射值。
例如,一种可行的方法是:
这样,你会有很多数据更密集的垃圾箱,以及数据更稀疏的垃圾箱。
需要考虑两件事: