数据帧列表的相应元素的平均值

时间:2017-07-18 01:43:18

标签: python python-2.7 python-3.x pandas dataframe

我有一个包含3个数据框的列表(相同的形状和相同的列名)。我想取每个数据框中所有相应元素的平均值。

df3 = pd.DataFrame(np.random.randn(8, 3), columns= ['M', 'N', 'O'])
df4 = pd.DataFrame(np.random.randn(8, 3), columns= ['M', 'N', 'O'])
df5 = pd.DataFrame(np.random.randn(8, 3), columns= ['M', 'N', 'O'])

目前,我打算这样做。

pd.DataFrame.add(df5, df4, df3)/3

但我有一大堆数据帧进来 - 让我们说一个包含100个数据帧的列表。请建议更好的方法来解决这个问题。有没有办法不循环它们?

2 个答案:

答案 0 :(得分:2)

您可以在列表中使用sum,然后除以列表中的len,无论数据框中是否有nans

list_of_dfs = [df3, df4, df5]
sum(list_of_dfs)/len(list_of_dfs)

#           M          N            O
#0  -0.264907   0.465489     0.238963
#1  -1.020216   0.235631    -0.227061
#2   0.331727   1.061115     0.188867

或者,您可以使用reduce方法调用pd.DataFrame.add将所有数据框一起添加到列表中:

reduce(pd.DataFrame.add, list_of_dfs)/len(list_of_dfs)
#           M          N            O
#0  -0.264907   0.465489     0.238963
#1  -1.020216   0.235631    -0.227061

如果使用python 3,首先导入reduce:

from functools import reduce

答案 1 :(得分:1)

您可以连接数据框列表,重置索引,然后使用groupby获取平均值。

df3 = pd.DataFrame(np.random.randn(8, 3), columns= ['M', 'N', 'O'])
df4 = pd.DataFrame(np.random.randn(8, 3), columns= ['M', 'N', 'O'])
df5 = pd.DataFrame(np.random.randn(8, 3), columns= ['M', 'N', 'O'])

# create list of dfs
dflist = [df3, df4, df5]

# reset_index creates new var you will use for groupby
joined = pd.concat(dflist).reset_index()
means = joined.groupby('index').mean()


print(means)
              M         N         O
index                              
0     -0.345697  0.354027 -0.125968
1      0.018404 -0.130260 -0.721745
2     -0.396263  0.475361 -1.173686
3      0.560518  0.774065  0.188009
4      1.521029  0.332139  0.078057
5     -0.180118 -0.948808 -0.889329
6      0.476496  0.236885  0.774599
7     -0.340693 -0.598964  0.381229