删除Python Pandas DataFrame中的重复项不会删除重复项

时间:2013-05-02 06:19:06

标签: python numpy pandas

我在删除重复项时遇到问题。我的程序基于一个生成元组(x,y)的循环,然后将其用作图中的节点。节点的最终数组/矩阵是:

[[ 1.          1.        ]
[ 1.12273268  1.15322175]
[..........etc..........]
[ 0.94120695  0.77802849]
**[ 0.84301344  0.91660517]**
[ 0.93096269  1.21383287]
**[ 0.84301344  0.91660517]**
[ 0.75506418  1.0798641 ]]

数组的长度是22.现在,我需要删除重复的条目(参见**)。所以我用过:

def urows(array):
    df = pandas.DataFrame(array)
    df.drop_duplicates(take_last=True)
    return df.drop_duplicates(take_last=True).values

太棒了,但我还是得到了:

           0         1
0   1.000000  1.000000
....... etc...........
17  1.039400  1.030320
18  0.941207  0.778028
**19  0.843013  0.916605**
20  0.930963  1.213833
**21  0.843013  0.916605**

因此删除重复项不会删除任何内容。我测试看看节点实际上是否相同,我得到了:

print urows(total_nodes)[19,:]
---> [ 0.84301344  0.91660517]
print urows(total_nodes)[21,:]
---> [ 0.84301344  0.91660517]
print urows(total_nodes)[12,:] - urows(total_nodes)[13,:]
---> [ 0.  0.]

为什么不工作?如何删除那些重复的值???

还有一个问题......

假设两个值“几乎”相等(比如x1和x2),有没有办法以它们相等的方式替换它们?我想要的是用x1替换x2,如果它们“几乎”相等。

2 个答案:

答案 0 :(得分:5)

如果我复制粘贴您的数据,我会得到:

>>> df
          0         1
0  1.000000  1.000000
1  1.122733  1.153222
2  0.941207  0.778028
3  0.843013  0.916605
4  0.930963  1.213833
5  0.843013  0.916605
6  0.755064  1.079864

>>> df.drop_duplicates() 
          0         1
0  1.000000  1.000000
1  1.122733  1.153222
2  0.941207  0.778028
3  0.843013  0.916605
4  0.930963  1.213833
6  0.755064  1.079864

所以它实际上被移除了,你的问题是数组 完全相同(尽管它们之间的区别为0表示显示)。

一种解决方法是将数据四舍五入到适用于df.apply(np.round, args=[4])之类的小数位,然后删除重复项。如果要保留原始数据但删除重复的行直到舍入,则可以使用类似

的内容
df = df.ix[~df.apply(np.round, args=[4]).duplicated()]

这是一个非常笨拙的方式来做你所要求的设置几乎相等的值实际上是相等的:

grouped = df.groupby([df[i].round(4) for i in df.columns])
subbed = grouped.apply(lambda g: g.apply(lambda row: g.irow(0), axis=1))
subbed.drop_index(level=list(df.columns), drop=True, inplace=True)

这会重新排序数据框,但如果您需要,可以调用.sort()以原始顺序将其恢复。

说明:第一行使用groupby按舍入值对数据框进行分组。不幸的是,如果你给groupby提供一个函数,它会将它应用于标签而不是行(所以你可以做df.groupby(lambda k: np.round(df.ix[k], 4)),但那也很糟糕。)

第二行使用groupby上的apply方法将近似重复的行g的数据框替换为新的数据帧g.apply(lambda row: g.irow(0), axis=1)。它使用数据框上的apply方法将每一行替换为该组的第一行。

结果看起来像

                        0         1
0      1                           
0.7551 1.0799 6  0.755064  1.079864
0.8430 0.9166 3  0.843013  0.916605
              5  0.843013  0.916605
0.9310 1.2138 4  0.930963  1.213833
0.9412 0.7780 2  0.941207  0.778028
1.0000 1.0000 0  1.000000  1.000000
1.1227 1.1532 1  1.122733  1.153222

其中groupby已将舍入值作为索引插入。然后,reset_index行会丢弃这些列。

希望能比我更了解熊猫的人会过去并展示如何做得更好。

答案 1 :(得分:1)

与@Dougal回答类似,但方式略有不同

In [20]: df.ix[~(df*1e6).astype('int64').duplicated(cols=[0])]
Out[20]: 
          0         1
0  1.000000  1.000000
1  1.122733  1.153222
2  0.941207  0.778028
3  0.843013  0.916605
4  0.930963  1.213833
6  0.755064  1.079864