Question

我有一个包含以下列的数据框：

['id','name','foo1', 'foo1', 'foo1', 'foo2','foo2', 'foo3']

我想获得一个新的数据框，其中共享相同名称的列是平均值：

['id','name','foo1', 'foo2','foo3']

这里列foo1将是原始数据帧中名为foo1的三列的平均值，foo2将是名为foo2的两列的平均值，而foo3将只是foo3

注意：id和name不是数字，我必须保留它们。

Answer 1

基本思想是，您可以按列名称进行分组，并为每个组执行操作。

我看到了一些针对您问题的评论，并试图为您提供不同的方法来实现目标。（解决方案（3）是我发现的最好的！）

（1）快速解决方案。如果您的列非常有限且不是数字，并且拥有唯一的名称，例如列id和name。你能做的是：

首先设置索引['id', 'name']以保留它们，

df = df.set_index(['id', 'name'])

然后在DataFrame.groupby上使用columns函数，设置axis=1（遍历每列），为每个组应用mean函数。

df.groupby(by=df.columns, axis=1).mean()

最后，重置索引以恢复['id', 'name']列

df = df.reset_index()

以下是示例代码：

In [35]: df = pd.DataFrame([['001', 'a', 1, 10, 100, 1000], ['002', 'b', 2, 20, 200, 2000]], columns=['id', 'name', 'c1', 'c2', 'c2', 'c3'], index=list('AB'))

In [36]: df = df.set_index(['id', 'name'])

In [37]: df = df.groupby(by=df.columns, axis=1).mean()

In [38]: df = df.reset_index()

In [39]: df
Out[39]: 
    id name  c1   c2    c3
0  001    a   1   55  1000
1  002    b   2  110  2000

（2）完整的解决方案。如果您有许多非数字和唯一命名的列，您可以执行以下操作：

首先转置数据框，

df2 = df.transpose()

然后你按操作分组（在其索引和axis=0上），但仔细处理每个组：对于这些数字组，返回它们的平均值;对于这些非数字组，返回第一行：

df2 = df2.groupby(by=df2.index, axis=0).apply(lambda g: g.mean() if isinstance(g.iloc[0,0], numbers.Number) else g.iloc[0])

最后，转回来：

df = df2.transpose()

以下是代码示例：

In [98]: df = pd.DataFrame([['001', 'a', 1, 10, 100, 1000], ['002', 'b', 2, 20, 200, 2000]], columns=['id', 'name', 'c1', 'c2', 'c2', 'c3'], index=list('AB'))

In [99]: df2 = df.transpose()

In [100]: df2 = df2.groupby(by=df2.index, axis=0).apply(lambda g: g.mean() if isinstance(g.iloc[0,0], numbers.Number) else g.iloc[0])

In [101]: df3 = df2.transpose()

In [102]: df3
Out[102]: 
  c1   c2    c3   id name
A  1   55  1000  001    a
B  2  110  2000  002    b

In [103]: df
Out[103]: 
    id name  c1  c2   c2    c3
A  001    a   1  10  100  1000
B  002    b   2  20  200  2000

您需要import numbers

更多说明：

（3）一体化！这个解决方案是我发现的最好的解决方案：

df.groupby(by=df.columns, axis=1).apply(lambda g: g.mean(axis=1) if isinstance(g.iloc[0,0], numbers.Number) else g.iloc[:,0])

我试图处理未转置组的每个组，即

df.groupby(by=df.columns, axis=1).apply(gf)

和

gf = lambda g: g.mean(axis=1) if isinstance(g.iloc[0,0], numbers.Number) else g.iloc[:,0]

之前我失败了，因为我没有小心翼翼地按下轴。您必须为axis=1函数设置mean，并返回非数字组的列。

谢谢！

熊猫：具有相同名称的列的平均值

1 个答案: