我正在寻找一种有效的方法来执行以下操作:
如果我输入的是:
np.array([9,0,1,0,3,0])
我希望我的输出为:
np.array([0,3,2,3,1,3]) # 9 is the highest, so it gets rank 0
# 3 is the second highest, so it gets rank 1
# 1 is third highest, so it gets rank 2
# 0's are forth highest so they get rank 3
我正在尝试将以下内容应用于2D矩阵:
输入:
a = np.array([[9,0,1,0,3,0],
[0,1,2,3,4,5],
[0.01,0.3,2,100,1,1],
[0,0,0,0,1,1],
[4,4,4,4,4,4]])
输出:
>>> get_order_array(a)
array([[0, 3, 2, 3, 1, 3],
[5, 4, 3, 2, 1, 0],
[4, 3, 1, 0, 2, 2],
[1, 1, 1, 1, 0, 0],
[0, 0, 0, 0, 0, 0]])
我可以通过以下解决方案实现上述目标;但是,我觉得它效率非常低,所以我希望有人可以提出更好的方法来实现我的目标。
def get_order(x):
unique_x = np.unique(x)
step_1 = np.argsort(unique_x)[::-1]
temp_dict = dict(zip(unique_x, step_1))
return np.vectorize(temp_dict.get)(x)
def get_order_array(x):
new_array = np.empty(x.shape, dtype=np.int)
for i in xrange(x.shape[0]):
new_array[i] = get_order(x[i])
return new_array
答案 0 :(得分:1)
一点cumsum
魔法有很长的路要走:
a_idx = np.argsort(a, axis=-1)[:, ::-1]
a_sorted = a[np.arange(a.shape[0])[:, None], a_idx]
a_diff = np.zeros_like(a_sorted, dtype=np.bool)
a_diff[:, 1:] = a_sorted[:, :-1] != a_sorted[:, 1:]
a_sorted_ranks = np.cumsum(a_diff, axis=1)
a_ranks = a_sorted_ranks[np.arange(a_sorted_ranks.shape[0])[:, None],
np.argsort(a_idx, axis=1)]
>>> a_ranks
array([[0, 3, 2, 3, 1, 3],
[5, 4, 3, 2, 1, 0],
[4, 3, 1, 0, 2, 2],
[1, 1, 1, 1, 0, 0],
[0, 0, 0, 0, 0, 0]])
答案 1 :(得分:1)
@ Jaime的答案很棒(像往常一样!)。这是另一种选择,使用scipy.stats.rankdata
。
在rankdata
的术语中,您需要“密集”排名。您还希望按照与通常相反的顺序对值进行排名。要完成相反的顺序,我们会将-a
传递给rankdata
。我们还将从排名中减去1,因此排名从0开始而不是1.最后,您要对二维数组的行进行排名。 rankdata
适用于一维数据,因此我们必须遍历行。
以下是代码:
import numpy as np
from scipy.stats import rankdata
def get_order_array(a):
b = np.empty(a.shape, dtype=int)
for k, row in enumerate(a):
b[k] = rankdata(-row, method='dense') - 1
return b
if __name__ == "__main__":
a = np.array([[9,0,1,0,3,0],
[0,1,2,3,4,5],
[0.01,0.3,2,100,1,1],
[0,0,0,0,1,1],
[4,4,4,4,4,4]])
print get_order_array(a)
输出:
[[0 3 2 3 1 3]
[5 4 3 2 1 0]
[4 3 1 0 2 2]
[1 1 1 1 0 0]
[0 0 0 0 0 0]]
答案 2 :(得分:0)
基本上:
order = a.argsort(axis=1)
ranks = order.argsort(axis=1)
不,我自己没有拿出这个聪明的答案。参见:
Rank items in an array using Python/NumPy
如果你想对相同的数字使用相同的排名,你也会找到一个食谱。 (如果有重复的数字,这个给出连续的等级。)