Pandas-基于与另一列的交叉引用计算新值

时间:2019-04-04 22:43:31

标签: python pandas method-chaining cross-reference

我正在尝试在其值与另一列交叉引用的列中计算新值。

>>> import pandas as pd
>>> df = pd.DataFrame( {"A":[0., 100., 80., 40., 0., 60.], 
                        "B":[12,  12,   3,  19,  3,  19]} )
>>> df
       A   B
0    0.0  12
1  100.0  12
2   80.0   3
3   40.0  19
4    0.0   3
5   60.0  19

我想根据某个功能在A列中找到所有值为0,在B列中找到对应的值,然后更改具有相同B列值的所有A列值。例如,在上面的示例中,我想将A列的前两个值df.A[0]df.A[1]分别从0.和100.更改为0.5和99.5,因为df.A[0]为0。并且B列中的值df.B[0] = 12df.B[1] = 12相同。

df
      A   B
0   0.5  12
1  99.5  12
2  79.5   3
3  40.0  19
4   0.5   3
5  60.0  19

我尝试链接loc,aggregate,groupby和mask功能,但没有成功。是通过for循环的唯一方法吗?


编辑: 扩大示例以更好地说明意图。

2 个答案:

答案 0 :(得分:1)

这将起作用:

import pandas as pd

df = pd.DataFrame( {"A":[0., 100., 40., 60.], "B":[12, 12, 19, 19]} )

def f(series):
    return (series + 0.5).where(series == 0, series - 0.5)

B_value = df.loc[df['A'] == 0, 'B'][0]
df.loc[df['B'] == B_value, 'A'] = df.loc[df['B'] == B_value, 'A'].transform(f)

print(df)

输出:

      A   B
0   0.5  12
1  99.5  12
2  40.0  19
3  60.0  19

您可以将任意函数传递给transform

可能会有更清洁的方法来执行此操作;令我感到有些混乱。

答案 1 :(得分:0)

我找到了可行的解决方案,尽管可能不是最佳选择。我对分组依据进行链接,过滤和变换以获得所需的序列,然后将结果替换为原始数据帧。

import pandas as pd
df = pd.DataFrame( {"A":[0., 100., 80., 40., 0., 60.], 
                    "B":[12,  12,   3,  19,  3,  19]} )
u = ( df.groupby(by="B",  sort=False)
         .filter(lambda x: x.A.min() == 0, dropna=False)
         .A.transform( lambda x: (x+0.5).where(x == 0, x - 0.5) ) 
    )
df.loc[pd.notnull(u), "A"] = u

给出以下结果

print("\ninitial df\n",df,"\n\nintermediate series\n",u,"\n\nfinal result",df)

initial df
        A   B
0    0.0  12
1  100.0  12
2   80.0   3
3   40.0  19
4    0.0   3
5   60.0  19

intermediate series
 0     0.5
1    99.5
2    79.5
3     NaN
4     0.5
5     NaN
Name: A, dtype: float64

final result       A   B
0   0.5  12
1  99.5  12
2  79.5   3
3  40.0  19
4   0.5   3
5  60.0  19