Question

我的代码中有以下行，我根据列 Package 对 df 进行分组，并根据另一列 Id 上的条件计算每个组的大小。

df.groupby("Package")["Id"].apply(lambda x: x.isin(someList).sum())
Package
P1       1
P2       12
P3       52
P4       123
P5       5421
P6       53
P7       64
Name: Id, dtype: int64

我的问题是，我还需要计算 x 不在 someList 中的每个组的大小。我怎样才能做到这一点？我应该在某个地方波浪号吗？

Answer 1

在您的解决方案中，将带括号的 ~ 添加到 lambda 函数：

df.groupby("Package")["Id"].apply(lambda x: (~x.isin(someList)).sum())

或者使用语法糖 - 创建 Series 的非成员资格并按系列 df["Package"] 聚合：

(~df["Id"].isin(someList)).groupby(df["Package"]).sum()

用掩码填充列 Id 的类似更清晰的想法，因此可能与列名聚合：

df.assign(Id = ~df["Id"].isin(someList)).groupby("Package")["Id"].sum()

否定 isin - 熊猫

1 个答案: