我正在尝试为给定的数据框定义一个函数,该函数应返回具有相同名称和汽车价值但日期较早的观测ID的列表。我的方法是根据日期进行排序,然后将所有内容(除了最近(最近)的观测结果)添加到列表中。
当前代码:
def detecting_old_entries(x):
all_entries = x[x.duplicated(keep = False, subset = ["name", "automotive"])]
sorted_entries = all_entries.sort_values(["name", "automotive", "date"], ascending = (True, True, True))
old_entries = sorted_entries[sorted_entries.duplicated(keep = "last", subset = ["name", "automotive"])]
old_entries_list = []
old_entries_list = old_entries.index.tolist()
return old_entries_list
我的问题是我不想添加与日期相似的观测ID。
与此 textbook on Operating Systems 我认为这更容易理解。我不希望将行ID 407添加到列表中,因为我不知道是哪一个是最近的,因为它们具有相同的日期。
函数的输入将是数据框。
感谢社区<3