从pandas DataFrame中删除重复行,其时间戳在指定的范围或持续时间内

时间:2017-11-17 00:11:55

标签: python pandas dataframe duplicates

我有一个像这样的DataFrame:

Subject Verb    Object  Date
---------------------------------
Bill    Ate     Food    7/11/2015
Steve   Painted House   8/12/2011
Bill    Ate     Food    7/13/2015
Steve   Painted House   8/25/2011

我想删除所有重复项,其中副本被定义为具有相同的主题,动词,对象和属于X天范围(在我的示例中:5天)。< / p>

Subject Verb    Object  Date
---------------------------------
Bill    Ate     Food    7/11/2015
Steve   Painted House   8/12/2011
Steve   Painted House   8/25/2011

“Steve - Painted - House”的例子都没有删除,因为它们不在5天的时间范围内。

我知道我可以使用DataFrame的一些数据结构和iterrows方法来做到这一点,但有没有办法使用Pandas drop_duplicates来做到这一点?

1 个答案:

答案 0 :(得分:3)

routing + duplicateddiff结合使用,以确定要删除的行。

groupby