numpy数组的排名可能有重复

时间:2013-02-03 09:16:49

标签: python sorting numpy scipy

我有一个numpy数组的浮点数/整数,并希望将其元素映射到他们的行列。

如果数组没有重复项,则可以通过以下代码解决问题

In [49]: a1
Out[49]: array([ 0.1,  5.1,  2.1,  3.1,  4.1,  1.1,  6.1,  8.1,  7.1,  9.1])

In [50]: a1.argsort().argsort()
Out[50]: array([0, 5, 2, 3, 4, 1, 6, 8, 7, 9])

现在我想将此方法扩展到具有可能重复的数组,以便将重复项映射到相同的值。例如,我想要数组a

a2 = np.array([0.1, 1.1, 2.1, 3.1, 4.1, 1.1, 6.1, 7.1, 7.1, 1.1])

要映射到

0 1 4 5 6 1 7 8 8 1

0 3 4 5 6 3 7 9 9 3

0 2 4 5 6 2 7 8.5 8.5 2

在第一个/第二个案例中,如果我们只应用a2.argsort()。argsort(),我们会将重复项映射到其中的最小/最大等级。 第三种情况只是前两种情况的平均值。

有什么建议吗?

EDIT(效率要求)

在最初的描述中,我忘了提及时间要求。我正在寻求numpy / scipy函数方面的解决方案,这将避免“纯python开销”。为了说清楚,请考虑理查德提出的解决问题但实际上很慢的解决方案:

def argsortdup(a1):
  sorted = np.sort(a1)
  ranked = []
  for item in a1:
    ranked.append(sorted.searchsorted(item))
  return np.array(ranked)

In [86]: a2 = np.array([ 0.1,  1.1,  2.1,  3.1,  4.1,  1.1,  6.1,  7.1,  7.1,  1.1])

In [87]: %timeit a2.argsort().argsort()
1000000 loops, best of 3: 1.55 us per loop

In [88]: %timeit argsortdup(a2)
10000 loops, best of 3: 25.6 us per loop

In [89]: a = np.arange(0.1, 1000.1)

In [90]: %timeit a.argsort().argsort()
10000 loops, best of 3: 24.5 us per loop

In [91]: %timeit argsortdup(a)
1000 loops, best of 3: 1.14 ms per loop

In [92]: a = np.arange(0.1, 10000.1)

In [93]: %timeit a.argsort().argsort()
1000 loops, best of 3: 303 us per loop

In [94]: %timeit argsortdup(a)
100 loops, best of 3: 11.9 ms per loop

从上面的分析可以清楚地看出,argsortdup比a.argsort()。argsort()慢30-50倍。主要原因是使用python循环和列表。

3 个答案:

答案 0 :(得分:4)

使用uniquebincount

可以做得相当好
>>> u, v = np.unique(a2, return_inverse=True)
>>> (np.cumsum(np.bincount(v)) - 1)[v]
array([0, 3, 4, 5, 6, 3, 7, 9, 9, 3])

或者,最低等级:

>>> (np.cumsum(np.concatenate(([0], np.bincount(v)))))[v]
array([0, 1, 4, 5, 6, 1, 7, 8, 8, 1])

通过提供bincount要提供的垃圾箱数量,可以实现轻微的加速:

(np.cumsum(np.bincount(v, minlength=u.size)) - 1)[v]

答案 1 :(得分:3)

根据评论中的@WarrenWeckesser建议升级到scipy的最新版本后,scipy.stats.rankdata似乎比scipy.stats.mstats.rankdatanp.searchsorted都更快。在更大的阵列上做。

In [1]: import numpy as np

In [2]: from scipy.stats import rankdata as rd
   ...: from scipy.stats.mstats import rankdata as rd2
   ...: 

In [3]: array = np.arange(0.1, 1000000.1)

In [4]: %timeit np.searchsorted(np.sort(array), array)
1 loops, best of 3: 385 ms per loop

In [5]: %timeit rd(array)
10 loops, best of 3: 109 ms per loop

In [6]: %timeit rd2(array)
1 loops, best of 3: 205 ms per loop

答案 2 :(得分:2)

这是一个可以返回所需输出的函数(在第一种情况下)

def argsortdup(a1):
  sorted = sort(a1)
  ranked = []
  for item in a1:
    ranked.append(sorted.searchsorted(item))
  return array(ranked)

基本上你对它进行排序然后搜索项目所在的索引。假设重复,应返回第一个实例索引。我用你的a2示例测试了它并做了类似

的事情
a3 = argsortdup(a2)

产量

array([0, 1, 4, 5, 6, 1, 7, 8, 8, 1])

“用a2测试”:

>>> a2
array([ 0.1,  1.1,  2.1,  3.1,  4.1,  1.1,  6.1,  7.1,  7.1,  1.1])
>>> def argsortdup(a1):
...   sorted = sort(a1)
...   ranked = []
...   for item in a1:
...     ranked.append(sorted.searchsorted(item))
...   return array(ranked)
...
>>> a3 = argsortdup(a2)
>>> a2
array([ 0.1,  1.1,  2.1,  3.1,  4.1,  1.1,  6.1,  7.1,  7.1,  1.1])
>>> a3
array([0, 1, 4, 5, 6, 1, 7, 8, 8, 1])
>>>