Python:删除熊猫数据框的重复项

时间:2020-05-04 04:11:12

标签: python

我正在尝试为给定的数据框定义一个函数,该函数应返回具有相同名称和汽车价值但日期较早的观测ID的列表。我的方法是根据日期进行排序,然后将所有内容(除了最近(最近)的观测结果)添加到列表中。

当前代码:

def detecting_old_entries(x):
    all_entries = x[x.duplicated(keep = False, subset = ["name", "automotive"])]
    sorted_entries = all_entries.sort_values(["name", "automotive", "date"], ascending = (True, True, True))
    old_entries = sorted_entries[sorted_entries.duplicated(keep = "last", subset = ["name", "automotive"])]
    old_entries_list = []
    old_entries_list = old_entries.index.tolist()
    return old_entries_list

我的问题是我不想添加与日期相似的观测ID。

与此 textbook on Operating Systems 我认为这更容易理解。我不希望将行ID 407添加到列表中,因为我不知道是哪一个是最近的,因为它们具有相同的日期。

函数的输入将是数据框。

感谢社区<3

0 个答案:

没有答案