在Python Pandas中计算Dataframes的平均值/平均值

时间:2017-06-13 08:16:14

标签: python pandas pandas-groupby

我有一个数据框列表。每个数据帧最初是从其中取得的数字数据,所有数据都具有相同的形状,具有21行和5列。第一列是索引(索引0到索引20)。我想将平均值(平均值)计算到单个数据帧中。然后我想将数据框导出为ex​​cel。

这是我现有代码的简化版本:

#look to concatenate the dataframes together all at once
#dataFrameList is the given list of dataFrames
concatenatedDataframes = pd.concat(dataFrameList, axis = 1)

#grouping the dataframes by the index, which is the same across all of the dataframes
groupedByIndex = concatenatedDataframes.groupby(level = 0)

#take the mean 
meanDataFrame = groupedByIndex.mean()

# Create a Pandas Excel writer using openpyxl as the engine.
writer = pd.ExcelWriter(filepath, engine='openpyxl')
meanDataFrame.to_excel(writer)

但是,当我打开excel文件时,我会看到每个数据帧都被复制到工作表中,并且不会显示平均值/平均值。下面显示了一个简化示例(切割大多数行和数据帧)

              Dataframe 1                   Dataframe 2                   Dataframe 3
Index  Col2   Col3   Col4   Col5     Col2   Col3   Col4   Col5     Col2   Col3   Col4   Col5
0      Data   Data   Data   Data     Data   Data   Data   Data     Data   Data   Data   Data
1      Data   Data   Data   Data     Data   Data   Data   Data     Data   Data   Data   Data
2      Data   Data   Data   Data     Data   Data   Data   Data     Data   Data   Data   Data
....

我正在寻找更像的东西:

           Averaged DF
Index  Col2                                   Col3                                   Col4
0      Mean Index0,Col2 across DFs    Mean Index0,Col3 across DFs    Mean Index0,Col4 across DFs
1      Mean Index1,Col2 across DFs    Mean Index1,Col3 across DFs    Mean Index1,Col4 across DFs
2      Mean Index2,Col2 across DFs    Mean Index2,Col3 across DFs    Mean Index3,Col4 across DFs
...

我也已经看到了这个答案: Get the mean across multiple Pandas DataFrames

如果可能的话,我正在寻找一个干净的解决方案,而不是仅仅涉及按值循环遍历每个dataFrame值的解决方案。有什么建议吗?

2 个答案:

答案 0 :(得分:1)

也许我误解了你的要求

解决方案很简单。你只需要沿着正确的轴连接

虚拟数据

df1 = pd.DataFrame(index = range(rows),columns = range(columns),data = [[10 + i * j for j in range(columns)] for i in range(rows)]) df2 = df1 = pd.DataFrame(index = range(rows),columns = range(columns),data = [[i + j for j in range(columns)] i in range(rows)])

PS。这应该是你的工作OP

pd.concat

df_concat0 = pd.concat((df1, df2), axis=1)

将所有数据框放在一起。

    0   1   0   1
0   10  10  0   1
1   10  11  1   2
2   10  12  2   3

如果我们现在要做一个groupby,我们首先需要堆叠,分组和再次堆叠

  

df_concat0.stack().groupby(level=[0,1]).mean().unstack()

    0   1
0   5.0     5.5
1   5.5     6.5
2   6.0     7.5

如果我们这样做

df_concat = pd.concat((df1, df2))

这会将所有数据框放在彼此的顶部

    0   1
0   10  10
1   10  11
2   10  12
0   0   1
1   1   2
2   2   3

现在我们需要像索引一样对索引进行分组

  

df_concat.groupby(level=0).mean()

    0   1
0   5.0     5.5
1   5.5     6.5
2   6.0     7.5

然后使用ExcelWriter作为上下文管理器

with pd.ExcelWriter(filepath, engine='openpyxl') as writer:
    result.to_excel(writer)

或只是简单

result.to_excel(filepath, engine='openpyxl') 

如果你可以覆盖filepath

的内容

答案 1 :(得分:1)

我想你需要针对每一列的所有行的平均值。

连接具有相同索引的数据帧列表会将其他数据帧中的列添加到第一个数据帧的右侧。如下:

      col1  col2  col3  col1  col2  col3
    0     1     2     3     2     3     4
    1     2     3     4     3     4     5
    2     3     4     5     4     5     6
    3     4     5     6     5     6     7

尝试附加数据框然后分组并取平均值以获得所需的结果。

    ##creating data frames
    df1= pd.DataFrame({'col1':[1,2,3,4],
        'col2':[2,3,4,5],
        'col3':[3,4,5,6]})

    df2= pd.DataFrame({'col1':[2,3,4,5],
        'col2':[3,4,5,6],
        'col3':[4,5,6,7]})

    ## list of data frames
    dflist = [df1,df2]

    ## empty data frame to use for appending
    df=pd.DataFrame()

    #looping through each item in list and appending to empty data frame
    for i in dflist:
        df = df.append(i)

    # group by and calculating mean on index
    data_mean=df.groupby(level=0).mean()

在写作时写入文件

另外: 除了使用for循环附加外,您还可以提及要连接数据框的轴,在这种情况下,您希望沿索引(轴= 0)连接以将数据数据框放在彼此的顶部。如下:

       col1  col2  col3
    0     1     2     3
    1     2     3     4
    2     3     4     5
    3     4     5     6
    0     2     3     4
    1     3     4     5
    2     4     5     6
    3     5     6     7

    ##creating data frames
    df1= pd.DataFrame({'col1':[1,2,3,4],
                       'col2':[2,3,4,5],
                       'col3':[3,4,5,6]})

    df2= pd.DataFrame({'col1':[2,3,4,5],
                       'col2':[3,4,5,6],
                       'col3':[4,5,6,7]})

    ## list of data frames
    dflist = [df1,df2]

    #concat the dflist along axis 0 to put the data frames on top of each other
    df_concat=pd.concat(dflist,axis=0)

    # group by and calculating mean on index
    data_mean=df_concat.groupby(level=0).mean()

在写作时写入文件