我有一个像这样的数据框,
df,
Name City
0 sri chennai
1 pedhci pune
2 bahra pune
城市列中有重复项。
我试过了:
df["City"].drop_duplicates()
但它只给出了特定的列。
我想要的输出应该是
output_df
Name City
0 sri chennai
1 pedhci pune
答案 0 :(得分:0)
您可以使用:
df2 = df.drop_duplicates(subset='City')
如果要将结果存储在新数据框中,或者:
df.drop_duplicates(subset='City',inplace=True)
如果您想更新df
。
这会产生:
>>> df
City Name
0 chennai sri
1 pune pedhci
2 pune bahra
>>> df.drop_duplicates(subset='City')
City Name
0 chennai sri
1 pune pedhci
因此,只考虑City
的重复项,忽略Name
中的重复项。