Question

我在一个组中有值，如果该值在5到25的范围内，那么我想将此组保留在数据中。

dfnew = df.groupby('groupname').filter(lambda x: (x['column2']>=5) & (x['column2']<=25))

当我使用它时，出现此错误： filter function returned a Series, but expected a scalar bool

然后我也尝试过：

dfnew = df.groupby('groupname').filter(lambda x: 5<= x['column2']<=25)

但是它给出了错误：

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

然后我尝试：

dfnew = df.groupby('groupname').filter(lambda x: (x['column2'].any()>=5) & (x['column2'].any()<=25))

仅返回具有列名称的空数据框

我对python和数据科学非常陌生（字面编码几天）。请说明发生了什么并提供帮助！非常感谢！！

Answer 1

我想你快到了。您需要使用max和min来测试组中的值。这是一个带有玩具数据集的示例。

首先数据：

import pandas as pd

data = pd.DataFrame(
    {
        'id': [1, 2, 3] * 3,
        'value': [3, 20, 21, 6, 24, 7, 21, 8, 50]
    }
)

data

哪个给了我们

然后使用组/过滤器模式仅保留组中的最小值大于或等于5且组中的最大值小于或等于25的组。在这种情况下，我们希望只返回第2组。

data.groupby('id').filter(lambda x: (x['value'].max() <= 25) & (x['value'].min() >= 5))

这就是我们得到的：