我想创建一个“聚合”更大数据集的数据框。
开始:
df:
col1 col2
1 A B
2 A C
3 A B
并获得:
df_aggregated:
col1 col2
1 A B
2 A C
不使用任何计算(count())
我会写:
df_aggreagated = df.groupby('col1')
但是我什么也没得到
打印(df_aggregated)
“错误”
任何帮助表示赞赏
答案 0 :(得分:1)
您可以通过使用df.drop_duplicates
函数简单地删除重复的条目来完成此操作:
df_aggregated = df.drop_duplicates(subset=['col1', 'col2'], keep=False)
print(df_aggregated)
col1 col2
1 A B
2 A C
答案 1 :(得分:0)
您可以将groupby
与以下功能配合使用:
In [849]: df.groupby('col2', as_index=False).max()
Out[849]:
col2 col1
0 B A
1 C A