我正在尝试用原始数据帧(Dataframe 1)中的行填充pandas数据帧(Dataframe 2)。我在下面创建了一个模拟Dataframe 1:
Ref Number Name
1 Alpha
2 Alpha
3 Alpha
4 Alpha
5 Beta
6 Beta
7 Beta
8 Charlie
我想删除前一行中出现值Name的行。即Dataframe 2应该看起来像
Ref Number Name
1 Alpha
5 Beta
8 Charlie
在这种情况下,参考编号无关紧要。在我的工作文件中,我打算添加一个列来指定一些东西,然后在应用某些函数时引用它。
我将如何与熊猫一起解决这个问题?我有一个包含〜5000行的CSV,我想将其限制在第二个数据帧~~ 1000。
答案 0 :(得分:1)
使用drop_duplicates
指定列Name
以查找重复项:
df = df.drop_duplicates('Name')
print (df)
Ref Number Name
0 1 Alpha
4 5 Beta
7 8 Charlie