通过过滤现有数据帧中的字符来创建新数据帧

时间:2021-07-08 17:42:16

标签: python pandas dataframe

我有一个 pandas 数据框:

id         name

63         T台
64        4S店
66    江南style
68        1号店
69         小S
70         大S
72          一
73         一一
74        一一二
77       一一列举
79       一一对应
80        一一记
81       一一道来
82         一丁
84        一丁点

我正在尝试仅使用列 name 中没有特定列表中字符的行创建新数据框:

letters = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '%', '+']

我发现有几个问题有些相似(例如 this),但它们是根据特定值(例如 df[(df['count'] == '2') & (df['price'] == '100')])而不是值列表进行过滤的。

在本例中,输出应该是一个没有第 63-70 行的新数据帧。

我尝试做类似的事情来获取我可以在数据帧上使用的 True/False 列表进行过滤:

('a' not in current_dataframe['name'])

但由于某种原因,这只会输出一个值:

>>> True

2 个答案:

答案 0 :(得分:2)

您可以使用正则表达式:

import re

pat = re.compile("|".join(re.escape(l) for l in letters), flags=re.I)
print(df[~df["name"].str.contains(pat)])

打印:

    id  name
3   68   1号店
6   72     一
7   73    一一
8   74   一一二
9   77  一一列举
10  79  一一对应
11  80   一一记
12  81  一一道来
13  82    一丁
14  84   一丁点

答案 1 :(得分:1)

使用列表理解:

to_keep = [not any(letter in val for letter in letters) for val in df.name]
new_df = df[to_keep]

其中 to_keep 是一个布尔列表,如果没有字母中的任何字母在 True 的相应值中,则条目为 df.name。然后我们使用布尔索引只保留那些行,

得到

>>> new_df

3   68   1号店
6   72     一
7   73    一一
8   74   一一二
9   77  一一列举
10  79  一一对应
11  80   一一记
12  81  一一道来
13  82    一丁
14  84   一丁点