Question

我正在尝试用原始数据帧（Dataframe 1）中的行填充pandas数据帧（Dataframe 2）。我在下面创建了一个模拟Dataframe 1：

Ref Number  Name
1           Alpha
2           Alpha
3           Alpha
4           Alpha
5           Beta
6           Beta
7           Beta
8           Charlie

我想删除前一行中出现值Name的行。即Dataframe 2应该看起来像

Ref Number  Name
1           Alpha
5           Beta
8           Charlie

在这种情况下，参考编号无关紧要。在我的工作文件中，我打算添加一个列来指定一些东西，然后在应用某些函数时引用它。

我将如何与熊猫一起解决这个问题？我有一个包含〜5000行的CSV，我想将其限制在第二个数据帧~~ 1000。

Answer 1

使用drop_duplicates指定列Name以查找重复项：

df = df.drop_duplicates('Name')
print (df)
   Ref Number     Name
0           1    Alpha
4           5     Beta
7           8  Charlie

创建一个每个值只有1行的新数据帧

1 个答案: