我有一个像这样的DataFrame:
Subject Verb Object Date
---------------------------------
Bill Ate Food 7/11/2015
Steve Painted House 8/12/2011
Bill Ate Food 7/13/2015
Steve Painted House 8/25/2011
我想删除所有重复项,其中副本被定义为具有相同的主题,动词,对象和属于X天范围(在我的示例中:5天)。< / p>
Subject Verb Object Date
---------------------------------
Bill Ate Food 7/11/2015
Steve Painted House 8/12/2011
Steve Painted House 8/25/2011
“Steve - Painted - House”的例子都没有删除,因为它们不在5天的时间范围内。
我知道我可以使用DataFrame的一些数据结构和iterrows方法来做到这一点,但有没有办法使用Pandas drop_duplicates来做到这一点?
答案 0 :(得分:3)
将routing
+ duplicated
与diff
结合使用,以确定要删除的行。
groupby