我需要计算np.array中相同元素的索引的平均值
我已经尝试使用np.where函数进行地图和列表解析,但是它们返回了我需要转换回np.like的python列表。 不幸的是,我自己无法从numpy中找到合适的东西,也不知道numpy很好
有一个我尝试做的例子
A = np.array ([2,5,9,8,8,3,2,1,2,1,8])
set_ = np.unique(A)
indeces = [np.where(A==i) for i in set_]
mean_ = [np.mean(i) for i in indeces]
但是列表理解会在np.where中给出列表-ndarray 我想使用numpy而不进行不必要的转换
我试图像这样使用map和np.fromiter
indeces = map(np.where,[A==i for i in set_])
mean_ = np.fromiter(indeces,dtype = np.int)
但是它提供了: ValueError:设置具有序列的数组元素。
mean_ = [8.0, 4.666666666666667, 5.0, 1.0, 5.666666666666667, 2.0]
使用上面的代码,但是请问有人可以建议一种有效的方法来用numpy或closet做到这一点。 感谢您的关注)
答案 0 :(得分:0)
如果A
中的值是非负整数,则可以通过两次调用np.bincount
来执行计算:
import numpy as np
A = np.array ([2,5,9,8,8,3,2,1,2,1,8])
result = np.bincount(A, weights=np.arange(len(A))) / np.bincount(A)
result = result[~np.isnan(result)]
print(result)
收益
[8. 4.66666667 5. 1. 5.66666667 2. ]
如果A
包含任意值,则可以先将这些值转换为非负整数标签,然后按上述步骤进行操作:
import numpy as np
A = np.array ([2,5,9,8,8,3,2,1,2,1,8])+0.5
uniqs, B = np.unique(A, return_inverse=True)
result = np.bincount(B, weights=np.arange(len(B))) / np.bincount(B)
result = result[~np.isnan(result)]
print(result)
收益
[8. 4.66666667 5. 1. 5.66666667 2. ]
工作原理:np.bincount
计算非负整数数组中每个值出现的次数:
In [161]: np.bincount(A)
Out[161]: array([0, 2, 3, 1, 0, 1, 0, 0, 3, 1])
| | | |
| | | o--- 9 occurs once
| | o--- 8 occurs three times
| o--- 2 occurs three times
o--- 1 occurs twice
如果提供了weight
参数,则不会将出现的次数加1,而是将计数增加weight
:
In [162]: np.bincount(A, weights=np.arange(len(A)))
Out[163]: array([ 0., 16., 14., 5., 0., 1., 0., 0., 17., 2.])
| | | |
| | | o--- 9 occurs at index 2
| | o--- 8 occurs at indices (3,4,10)
| o--- 2 occurs at indices (0,6,8)
o--- 1 occurs at indices (7,9)
由于np.arange(len(A))
等于A
中每个项目的索引值,因此对np.bincount
的上述调用将A
中每个值的索引求和。
将np.bincount
返回的两个数组相除得到平均值索引值。
或者,使用Pandas,计算可以表示为groupby/mean
operation:
import numpy as np
import pandas as pd
A = np.array([2,5,9,8,8,3,2,1,2,1,8])
S = pd.Series(np.arange(len(A)))
print(S.groupby(A).mean().values)
收益
[8. 4.66666667 5. 1. 5.66666667 2. ]