Question

假设我具有以下数据框：

    ter_id          shstr   value
6   2018002000000   201     1740.0
7   2018002000000   201     10759.0
8   2018002000002   201     2.0

如何过滤出ter_id为零的后六个符号的行？所需的输出是：

    ter_id          shstr   value
8   2018002000002   201     2.0

我做了一个布尔函数

def is_total(ter_id: str) -> bool:
    if ter_id[:-6] == "000000":
        return True
    return False

但是使用失败并显示错误：

dataset.filter(is_total(dataset.ter_id))
...
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

熊猫版本为1.0.1

Answer 1

通过6更改最后[-6:]个值的索引，并通过boolean indexing获取所有不匹配的行：

df = dataset[dataset.ter_id.str[-6:] != "000000"]
print (df)
          ter_id shstr value
8  2018002000002   201   2.0

Answer 2

对于基于列值过滤数据框，很少有理由编写自己的函数。您可以将条件作为布尔掩码传递给df.loc []（假设您的DataFrame名为df）。

df = df.loc[df["ter_id"].str[-6:] != "000000"]

Answer 3

IIUC

df[~(df.ter_id%1000000==0)]
Out[256]: 
          ter_id  shstr  value
8  2018002000002    201    2.0

Answer 4

好吧，我想到的是，您应该首先将列（ter_id）转换为字符串。然后在整个列上使用.contains方法

df_filtered = df[~df.ter_id.str.contains("000000")].copy()

df是您的数据框名称。我使用copy()函数来抑制警告。让我知道是否有帮助。...

P.S。您可以输入任何字符串而不是零。

Answer 5

不需要Python函数，您可以使用：

dataset[dataset['ter_id'].str.slice(-6) != '000000']

如何按列值切片过滤熊猫DataFrame

5 个答案: