我有3个数据集,分别包含预测,用户名和标签。使用下面的代码我平均了用户的预测(基于来自Jaime的帮助和来自Average using grouping value in another vector (numpy / Python)的ali_m)。标签与每个观察相关联,因此冗余信息。我想使用idx
为每个用户找到唯一标签。我如何在NumPy中做到这一点?
>>> pred
[ 0.99 0.23 0.11 0.64 0.45 0.55 0.76 0.72 0.97 ]
>>> users
['User2' 'User3' 'User2' 'User3' 'User0' 'User1' 'User4' 'User4' 'User4']
>>> label
[ 1 0 1 0 0 1 0 0 0 ]
unq, idx, cnt = np.unique(user_data, return_inverse=True, return_counts=True) # assign integer indices to each unique user name, and get the total number of occurrences for each name
predictions_user = np.bincount(idx, weights=pred) / cnt # now sum the values of pred corresponding to each index value and divide to get the mean
目前输出:
>>> unq
array(['User0', 'User1', 'User2', 'User3', 'User4'], dtype='|S5')
>>> predictions_user
array([ 0.45, 0.55, 0.55, 0.435, 0.81666667])
我想添加名为label_user
的最后一个变量。每个值都是与unq
中相同索引处的用户关联的标签。
示例输出:
>>> label_user
array([0, 1, 1, 0, 0])
答案 0 :(得分:1)
您可以将return_index=True
传递给np.unique
来执行此操作。来自the docs:
return_index:bool,可选
如果为True,还会返回导致唯一数组的 ar 索引。
这为您提供了user_data
的一组索引,这些索引在unq
中提供了唯一值。要获取与unq
中每个值对应的标签,您只需使用这些索引来索引labels
:
unq, idx, inv_idx, cnt = np.unique(user_data, return_index=True,
return_inverse=True, return_counts=True)
print(unq)
# ['User0' 'User1' 'User2' 'User3' 'User4']
print(label_user[idx])
# [0, 1, 1, 0, 0]
我已将“反向”索引数组重命名为inv_idx
,以便将其与idx
区分开来。
与每个唯一用户名的计算平均值一样,还有一种使用pandas获取相应标签的简单方法:
import pandas as pd
df = pd.DataFrame({'user_data':user_data, 'label_user':label_user})
print(df.groupby('user_data').label_user.unique())
# user_data
# User0 [0]
# User1 [1]
# User2 [1]
# User3 [0]
# User4 [0]
# Name: label_user, dtype: object