Question

我有一个如下所示的数据框：

col1   col2 col3 col4   col5...
g1       x1   x2   x3     x4
g1       x5   x6   x7     x8
g2       y1   y2   y3     y4
g2       y5   y6   y7     y8
...

其中 col1/col2 是“object”类型，col3/col4/col5 是“float”类型

我想先对 col1 进行分组，然后计算 col3/col4/col5 的平均值，同时将 col2 保留在结果数据框中。 “保持”我只是意味着保持原样，甚至不计算平均值，这是不可能的，因为它是“对象”类型。每组中每一行col2的实际值都是一样的，随便挑一个都行。

如果我天真地这样做：

df.groupby(["col1"]).mean().reset_index()

那么结果数据帧将不会保留 col2，col2 消失了。也就是说，结果将如下所示：

col1           col3          col4          col5...
g1        (x2+y2)/2     (x3+y3)/2     (x4+y4)/2
g2        (x6+y6)/2     (x7+x8)/2     (x8+y8)/2

如何在保持 col2 不变的情况下计算 col3/col4/col5 的平均值？

Answer 1

有很多方法可以选择“col2”的值

根据需要生成均值
加入要保留的列，选择第一个

s = 20
df = pd.DataFrame({"col1":np.random.choice(["g1","g2","g3"],s),
             "col2":np.random.choice(["constant"],s),
             **{f"col{i+3}":np.random.randint(1,10,s) for i in range(3)}})

df.groupby("col1").mean().join(df.groupby(["col1"])["col2"].first() ).reset_index(drop=True)

<头>

	col3	col4	col5	col2
0	5.875	6.75	6.75	常量
1	7	5.33333	6	常量
2	4.77778	4.88889	3.66667	常量

在保留对象类型的列的同时计算组的平均值

1 个答案: