Python pandas:替换groupby对象中的选择值

时间:2014-09-05 22:33:25

标签: python csv pandas indexing

我有一个大型数据框,其中包含四列中的个人级别数据:人员ID号,年份,年龄和移动状态。我对人员ID号码使用groupby,存储在unique_pid2列中。

import pandas as pd 

gr_data = pd.read_csv("M:/test.csv").groupby('unique_pid2')

group = gr_data.get_group('5904_181')

print group

每个小组都是这样的:

       unique_pid2  year  age  moved
798908    5904_181  1983    0      0
798909    5904_181  1984    0      0
798910    5904_181  1985    0      0
798911    5904_181  1986    0      0
798912    5904_181  1987    2      5
798913    5904_181  1988    0      5
798914    5904_181  1989    0      0
798915    5904_181  1990    0      0
798916    5904_181  1991    0      0
798917    5904_181  1992    0      0
798918    5904_181  1993    0      0
798928    5904_181  2009   24      5
798929    5904_181  2011   26      1

对于每个组,我想在movedage列中填写等于零的值 使用备用值,但仅当这些观察结果“夹在”agemoved列中至少有一个非零值的其他观察值之间时。

例如,在上面的组中,我想填写第798914: 798918行,而不是798908:798911。对于同时包含agemoved值的观察结果等于0,我写了一个函数,相应地替换零。但我想在像798914: 798918这样的“三明治”案例中调用此函数,并且不知道如何访问这些行。

到目前为止,我尝试过类似的事情:

group.loc[(group["age"] == 0) & (group["moved"] == 0), ['age', 'moved']] = someFunction(group)

但这填补了非夹心的观察结果,就像上面这组中的前四行一样。我应该如何应用函数来填充每个组中等于0的agemoved值,但仅适用于夹在{{1}中具有非零值的观察值之间的观察值},age或两者兼而有之?

1 个答案:

答案 0 :(得分:1)

假设agemoved中的值为非负值,您可以使用cumsum选择所需的行:

mask = ((grp['age'].cumsum()>0) & (grp['moved'].cumsum()>0)
        & (grp['age'] == 0) & (grp['moved'] == 0))

因为当累积和大于0时,必须有前面的正值。

例如,

import pandas as pd

df = pd.read_csv("M:/test.csv")
gr_data = df.groupby('unique_pid2')
def foo(grp):
    mask = ((grp['age'].cumsum()>0) & (grp['moved'].cumsum()>0)
            & (grp['age'] == 0) & (grp['moved'] == 0))
    grp.loc[mask, ['age', 'moved']] = 'foo'
    return grp
df = gr_data.apply(foo)
print(df)

产量

   unique_pid2  year  age moved
0     5904_181  1983    0     0
1     5904_181  1984    0     0
2     5904_181  1985    0     0
3     5904_181  1986    0     0
4     5904_181  1987    2     5
5     5904_181  1988    0     5
6     5904_181  1989  foo   foo
7     5904_181  1990  foo   foo
8     5904_181  1991  foo   foo
9     5904_181  1992  foo   foo
10    5904_181  1993  foo   foo
11    5904_181  2009   24     5
12    5904_181  2011   26     1