Question

我想创建一个“聚合”更大数据集的数据框。

开始：

df：

  col1 col2 
1    A    B
2    A    C
3    A    B

并获得：

df_aggregated：

  col1  col2
1     A    B
2     A    C

不使用任何计算（count（））

我会写：

df_aggreagated = df.groupby（'col1'）

但是我什么也没得到

打印（df_aggregated）

“错误”

任何帮助表示赞赏

Answer 1

您可以通过使用df.drop_duplicates函数简单地删除重复的条目来完成此操作：

df_aggregated = df.drop_duplicates(subset=['col1', 'col2'], keep=False)
print(df_aggregated)
   col1 col2
1    A    B
2    A    C

Answer 2

您可以将groupby与以下功能配合使用：

In [849]: df.groupby('col2', as_index=False).max()
Out[849]: 
  col2 col1
0    B    A
1    C    A