Numpy删除重复的行

时间:2013-05-23 14:49:55

标签: numpy duplicates row

我只需要删除在数组中重复但保留其中一行的行,我不能使用unique,因为我需要维护顺序。 实施例

1 a234 125
1 a123 265
1 a234 125
1 a145 167
1 a234 125    
2 a189 547
2 a189 547    
3 a678 567
3 a357 569

我需要这个输出

1 a234 125
1 a123 265
1 a145 167    
2 a189 547
3 a678 567
3 a357 569

1 个答案:

答案 0 :(得分:5)

我认为这样做符合您的要求,并将np.uniquereturn_index关键字参数结合使用:

import numpy as np

a = np.array([[1, 'a234', 125],
              [2, 'b189', 547],
              [1, 'a234', 125],
              [3, 'c678', 567],
              [1, 'a234', 125],
              [2, 'b189', 547]])

b = a.ravel().view(np.dtype((np.void, a.dtype.itemsize*a.shape[1])))
_, unique_idx = np.unique(b, return_index=True)

new_a = a[np.sort(unique_idx)]

>>> new_a
array([['1', 'a234', '125'],
       ['2', 'b189', '547'],
       ['3', 'c678', '567']], 
      dtype='|S4')

最讨厌的部分是视图b,它将每行转换为np.void dtype的单个元素,以便可以通过np.unique比较完整行的相等性