我有一个直方图,我需要将其转换为我正在使用的另一个软件的单个实例列表:如果我有4个点击值为“1”,三个点击值为“2”那么我的清单需要阅读[1,1,1,1,2,2,2]
。
我的直方图的结构是两个numpy数组,打包成一个名为hist
的列表。 hist[1]
中的数组存储我的bin边缘,hist[0]
中的数组存储每个bin的计数。
实现此转换的一种非常粗略的方法是简单地运行以下代码:
inhist=[]
for i in range(len(hist[0])):
for j in xrange(int(hist[0][i])):
inhist.append(int(hist[1][i]))
有更好的方法吗?特别是当直方图变得非常大时,这可能不再是实现这一目标的最有效方式。看到我确切地知道有多少时间我想要某个值,我想知道我是否可以保存自己所有的循环?
我意识到做这整件事一般会占用内存并且效率不高,但是,唉,我现在别无选择。
编辑:
print hist
返回:
[array([ 0.00000000e+00, 1.83413630e+07, 1.74493106e+09,
7.91390628e+10, 4.54474023e+11, 5.38810039e+11,
3.01718080e+11, 1.38440761e+11, 6.17865624e+10,
2.77457730e+10, 1.32412328e+10, 6.71579967e+09,
3.35556066e+09, 2.00513046e+09, 1.18435261e+09,
7.34440685e+08, 5.13846805e+08, 3.97894623e+08,
1.97770421e+08, 1.11546165e+08, 6.63624300e+07,
3.93196820e+07, 2.81038760e+07, 1.87733930e+07,
1.57307950e+07, 1.55162030e+07, 1.38710060e+07,
3.52969100e+06, 2.32881000e+05, 5.32210000e+04,
1.59100000e+04, 4.89700000e+03, 1.61300000e+03,
6.54000000e+02, 2.63000000e+02, 1.08000000e+02,
3.10000000e+01, 8.00000000e+00, 4.00000000e+00,
2.00000000e+00]),
array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,
17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
34, 35, 36, 37, 38, 39, 40], dtype=uint64)]
答案 0 :(得分:2)
那些i
索引基本上是元素的范围,范围是由第一个数组hist[0]
本身中存在的数字重复的hist[0]
个元素的长度。使用那些我们只需索引到第二个数组hist[1]
,为我们提供所需的输出。对于repeat
部分,我们可以使用np.repeat
。
所以,我们会有一个实现,就像这样 -
inhist = hist[1][np.arange(len(hist[0])).repeat(hist[0])]
作为一个矢量化解决方案,可以避免从NumPy数组中追加元素,这应该非常有效。
此外,如果我们使用NumPy浮点数数组,我们可能需要转换为int
dtype。因此,请输入hist[0].astype(int)
,如果输出也需要int
dtype,请对其使用相同的转换,如此 -
inhist = hist[1][np.arange(len(hist[0])).repeat(hist[0].astype(int))]