查找值被熊猫标记为重复的行

时间:2019-07-11 13:44:21

标签: python pandas duplicates

我正在研究以下熊猫数据框

enter image description here

该表按“ freq”列排序,并且我添加了一个新列“ duplicated”,该列指示“ no_ws_term”或“ stemmed_term”或“ stemmed_after_ws_clean”或“ stemmed_before_ws_clean”是否重复,同时保留了第一个值(频率较高)作为重复项。

df['duplicated'] = df.duplicated(..., keep='first')

Pandas的重复功能使您可以将第一个或最后一个值保留为不重复,而将所有其他重复的值保留为重复。

如何获取此“第一个”或“最后一个”值,并根据该值将行标记为重复。

如果我看下面的示例,我想做的是添加一个额外的列,该列将为标记为重复的行指定“第一个”的术语,在此示例中,希望有一个额外的列,对于每个重复的术语,该列将包含第一行的术语-在此示例中为“辣椒”。

enter image description here

0 个答案:

没有答案