我有一个1000行和2列的numpy数组:
[[ 0.76 1.28947368]
[ 0.7 0.97142857]
[ 0.7 1.48571429]
[ 0.68 1.11764706]
[ 0.68 1.23529412]
[ 0.68 1.41176471]
[ 0.68 1.41176471]
[ 0.68 1.44117647]
[ 0.66 0.78787879]
[ 0.66 1.03030303]
[ 0.66 1.09090909]
[ 0.66 1.15151515]
[ 0.66 1.15151515]
[ 0.66 1.21212121]
[ 0.66 1.24242424]]
显而易见,此数组按列0降序排列,按列升序排序。我想为此数组的每一行分配排名,以便重复行(两行或更多行的两列中的值均为等于)具有与第2列相同的等级和插入等级。
预期产出:
[[0.76 1.28947368 1]
[ 0.7 0.97142857 2]
[ 0.7 1.48571429 3]
[ 0.68 1.11764706 4]
[ 0.68 1.23529412 5]
[ 0.68 1.41176471 6]
[ 0.68 1.41176471 6] # as this row is duplicate of row above it
[ 0.68 1.44117647 7]
[ 0.66 0.78787879 8]
[ 0.66 1.03030303 9]
[ 0.66 1.09090909 10]
[ 0.66 1.15151515 11]
[ 0.66 1.15151515 11] # as this row is duplicate of row above it
[ 0.66 1.21212121 12]
[ 0.66 1.24242424 13]]
实现这一目标的最有效方法是什么?
答案 0 :(得分:2)
对于排序数组,就像给定的样本一样,它很容易 -
rank = np.r_[True, (a[1:] != a[:-1]).any(1)].cumsum()
out = np.column_stack(( a, rank ))
作为(a[1:] != a[:-1]).any(1)
的替代方案,我们可以使用以下内容来表现:
(a[1:,0] != a[:-1,0]) | (a[1:,1] != a[:-1,1])
逐步运行示例
1)输入数组:
In [70]: a
Out[70]:
array([[ 0.76 , 1.28947368],
[ 0.68 , 1.41176471],
[ 0.68 , 1.41176471],
[ 0.68 , 1.44117647],
[ 0.66 , 1.09090909],
[ 0.66 , 1.15151515],
[ 0.66 , 1.15151515],
[ 0.66 , 1.24242424]])
2)获取连续行之间不等式的掩码。这里的想法是,由于数组已排序,因此重复的行在两列中都具有相同的元素。因此,对于两列的不等式,我们将有一个1D掩码,但是一个元素小于原始数组中的总行数,因为我们使用切片时只剩下一个元素:
In [71]: a[1:] != a[:-1]
Out[71]:
array([[ True, True],
[False, False],
[False, True],
[ True, True],
[False, True],
[False, False],
[False, True]], dtype=bool)
In [72]: (a[1:] != a[:-1]).any(1)
Out[72]: array([ True, False, True, True, True, False, True], dtype=bool)
现在,为了补偿一个元素,因为我们需要从1
开始排名,并且我们打算使用累积总和来增加这个增量排名,让我们附加一个{{1}在开始时然后使用1
给我们预期的等级:
cumsum
为了在视觉上验证,这里是叠加的输出:
In [75]: np.r_[True, (a[1:] != a[:-1]).any(1)]
Out[75]: array([ True, True, False, True, True, True, False, True], dtype=bool)
In [76]: np.r_[True, (a[1:] != a[:-1]).any(1)].cumsum()
Out[76]: array([1, 2, 2, 3, 4, 5, 5, 6])