我的代码中有以下行,我根据列 Package
对 df 进行分组,并根据另一列 Id
上的条件计算每个组的大小。
df.groupby("Package")["Id"].apply(lambda x: x.isin(someList).sum())
Package
P1 1
P2 12
P3 52
P4 123
P5 5421
P6 53
P7 64
Name: Id, dtype: int64
我的问题是,我还需要计算 x
不在 someList
中的每个组的大小。我怎样才能做到这一点?我应该在某个地方波浪号吗?
答案 0 :(得分:1)
在您的解决方案中,将带括号的 ~
添加到 lambda 函数:
df.groupby("Package")["Id"].apply(lambda x: (~x.isin(someList)).sum())
或者使用语法糖 - 创建 Series
的非成员资格并按系列 df["Package"]
聚合:
(~df["Id"].isin(someList)).groupby(df["Package"]).sum()
用掩码填充列 Id
的类似更清晰的想法,因此可能与列名聚合:
df.assign(Id = ~df["Id"].isin(someList)).groupby("Package")["Id"].sum()