如何以矢量化方式在特定轴上找到二维数组的唯一向量?

时间:2012-10-19 22:02:29

标签: python multidimensional-array numpy

我有一个形状(n,t)的数组,我想将其视为n-vectors的时间序列。

我想知道n-vector中存在的唯一t-dimension值以及每个唯一向量的相关t-indices值。我很高兴使用任何合理的平等定义(例如numpy.unique将采用浮点数)

使用Python循环t很容易,但我希望采用矢量化方法。

在某些特殊情况下,可以将n-vectors折叠为标量(并在1d结果上使用numpy.unique),例如,如果你有布尔值,你可以使用带有dot向量的向量化(2**k)将(布尔向量)转换为整数,但我正在寻找一个相当普遍的解决方案。

1 个答案:

答案 0 :(得分:5)

如果数组的形状是(t,n) - 所以每个n向量的数据在内存中是连续的 - 你可以创建一个二维数组的视图作为一维结构数组,然后在此视图上使用numpy.unique。

如果您可以更改数组的存储约定,或者如果您不介意制作转置数组的副本,这可能对您有用。

以下是一个例子:

import numpy as np

# Demo data.
x = np.array([[1,2,3],
              [2,0,0],
              [1,2,3],
              [3,2,2],
              [2,0,0],
              [2,1,2],
              [3,2,1],
              [2,0,0]])

# View each row as a structure, with field names 'a', 'b' and 'c'.
dt = np.dtype([('a', x.dtype), ('b', x.dtype), ('c', x.dtype)])
y = x.view(dtype=dt).squeeze()

# Now np.unique can be used.  See the `unique` docstring for
# a description of the options.  You might not need `idx` or `inv`.
u, idx, inv = np.unique(y, return_index=True, return_inverse=True)

print("Unique vectors")
print(u)