Python:在大布尔矩阵中查找重复的行

时间:2014-03-16 09:27:32

标签: python sorting duplicates row bitarray

我在python中有一个布尔矩阵,需要找出哪些是重复的行。该表示也可以是一个bitarray列表,因为我正在将其用于其他目的。将所有行与所有行进行比较不是一个选项,因为这将产生12500 ^ 2比较,而我每秒只能做大约500次。也不可能将每行转换为整数,因为每行约为5000位长。在我看来,最好的方法是对比特列表进行排序,然后只比较连续的行。任何人都知道如何将bitarray映射到可排序的值或如何排序一个bitarray列表?还是有一种更有希望的不同方法?此外,因为我只需要这样做一次,所以我更喜欢代码而不是效率。

1 个答案:

答案 0 :(得分:0)

好的,所以bitarray列表可以通过sort()或sorted()快速排序。此外,Find unique rows in numpy.array中可能会指出解决此问题的更好方法。