我正在寻找类似的东西 Keep other columns when using min() with groupby ...
当我只用
查看一个实验/数据集时 df.sort_values("variableA").groupby("variableB", as_index=False).first()
一切正常。
现在我有一个很大的数据框,其中包含许多不同的实验和数据处理选项(让我们称其为processingoption1,...,processingoption4)。
Experiment processingoption1 processingoption2 processingoption3 processingoption4 variable1 variable2 variable3
processingoption1
processingoption2
processingoption3
processingoption4
are categorial
variableA
variableB
variableC
are numerical
数据框具有以下样式
experimentname processingoption1 processingoption2 processingoption3 processingoption4 variableA variableB variableC
experiment1 1 2 'mode3' '19'
我尝试过
combined_df.sort_values('variableA').groupby(['variableB','processingoption1','processingoption2','processingoption3','processingoption4',as_index=False).first()
但是没有用。与我分别进行每个实验时相比,结果有所不同。
仅使用数据框
experiment variableA variableB variableC
然后
combined_df.sort_values('variableA').groupby('variableB',as_index=False).first()
达到预期的结果
我想知道是否可能 pandas groupby sort within groups
稍后我要创建数据透视表
pivot_table(index=['experiment','processingoption1','processingoption2','processingoption3'],columns='variableB',values='variableC') ]
有什么主意吗?