将rolling()应用于groupby熊猫对象时,多索引重复

时间:2019-04-04 13:28:59

标签: python pandas pandas-groupby rolling-computation

我遇到了一个错误:

x.field.rolling(window=5,min_periods=1).mean() 其中xpandas.core.groupby.groupby.DataFrameGroupBy对象。

我尝试了此page中提出的解决方案。所以我这样做了:

x.field.apply(lambda x: x.rolling(window=5,min_periods=1).mean())

与上面介绍的网页相反,我仍然遇到相同的错误。

+---------+---------+-------+--------------------+
| machin  | machin  | truc  | a column of series |
+---------+---------+-------+--------------------+
| machin1 | machin1 | truc1 | 1                  |
|         |         | truc2 | 2                  |
|         |         | truc3 | 3                  |
|         |         | truc4 | 4                  |
| machin2 | machin2 | truc1 | 100                |
|         |         | truc2 | 99                 |
|         |         | truc3 | 98                 |
+---------+---------+-------+--------------------+

如您所见,在使用滚动方法之前,列索引“ machin”被复制了。

例如,让我们写x.field.apply(lambda x: x+1)。它返回:

+---------+-------+--------------------+
| machin  | truc  | a column of series |
+---------+-------+--------------------+
| machin1 | truc1 | 2                  |
|         | truc2 | 3                  |
|         | truc3 | 4                  |
|         | truc4 | 5                  |
| machin2 | truc1 | 101                |
|         | truc2 | 100                |
|         | truc3 | 99                 |
+---------+-------+--------------------+

因此没有重复,也没有错误。它表明这确实是rolling()方法中的问题。

这里有一些代码可帮助您重现我的计算结果

import pandas as pd

#creation of records
rec=[{'machin':'machin1',
    'truc':['truc1','truc2','truc3','truc4'],
    'a column':[1,2,3,4]},
    {'machin':'machin2',
    'truc':['truc1','truc2','truc3'],
    'a column':[100,99,98]}]

#creation of pandas dataframe
df=pd.concat([pd.DataFrame(rec[0]),pd.DataFrame(rec[1])])

#creation of multi-index
df.set_index(['machin','truc'],inplace=True)

#creation of a groupby object
x=df.groupby(by='machin')

#rolling computation. Note that to do x.field or x['field'] is the same, and gives same bug as I checked.
x['a column'].rolling(window=5,min_periods=1).mean()

#rolling with apply and lambda, gives same bug
x['a column'].apply(lambda x:x.rolling(window=5,min_periods=1).mean())

#making apply and lambda alone gives no bug
a=x['a column'].apply(lambda x: x+1)

我尝试过的其他解决方案

我试图重置系列的索引doc here

a.reset_index(name='machin')

它引发异常:ValueError: cannot insert machin, already exists

虽然您可以在多索引中看到名称中的“加工”:

a.index
MultiIndex(levels=[['machin1', 'machin2'], ['machin1', 'machin2'],  ['truc1', 'truc2', 'truc3', 'truc4']],
       labels=[[0, 0, 0, 0, 1, 1, 1], [0, 0, 0, 0, 1, 1, 1], [0, 1, 2, 3, 0, 1, 2]],
       names=['machin', 'machin', 'truc'])

我也尝试过放置doc here

a.drop(index='machin')
a.drop(index=0)

它引发异常:KeyError: 'machin'KeyError: 0

我的版本

在anaconda环境中甚至在终端中也使用Python 3.7.1(默认值,2018年12月14日,19:28:38):[GCC 7.3.0] :: Linux上的Anaconda,Inc。

熊猫0.23.4

1 个答案:

答案 0 :(得分:1)

使用group_keys的{​​{1}}参数:

groupby

或者,您可以使用df.groupby('machin', group_keys=False).rolling(window=5, min_periods=1).mean() 删除滚动插入的第0级:

reset_index

其中一个的输出

df.groupby('machin').rolling(window=5, min_periods=1).mean().reset_index(level=0, drop=True)