应用错误收集

我正在研究以下熊猫数据框

该表按“ freq”列排序，并且我添加了一个新列“ duplicated”，该列指示“ no_ws_term”或“ stemmed_term”或“ stemmed_after_ws_clean”或“ stemmed_before_ws_clean”是否重复，同时保留了第一个值（频率较高）作为重复项。

df['duplicated'] = df.duplicated(..., keep='first')

Pandas的重复功能使您可以将第一个或最后一个值保留为不重复，而将所有其他重复的值保留为重复。

如何获取此“第一个”或“最后一个”值，并根据该值将行标记为重复。

如果我看下面的示例，我想做的是添加一个额外的列，该列将为标记为重复的行指定“第一个”的术语，在此示例中，希望有一个额外的列，对于每个重复的术语，该列将包含第一行的术语-在此示例中为“辣椒”。

查找值被熊猫标记为重复的行

0 个答案: