我有一个 pandas
数据框:
id name
63 T台
64 4S店
66 江南style
68 1号店
69 小S
70 大S
72 一
73 一一
74 一一二
77 一一列举
79 一一对应
80 一一记
81 一一道来
82 一丁
84 一丁点
我正在尝试仅使用列 name
中没有特定列表中字符的行创建新数据框:
letters = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '%', '+']
我发现有几个问题有些相似(例如 this),但它们是根据特定值(例如 df[(df['count'] == '2') & (df['price'] == '100')]
)而不是值列表进行过滤的。
在本例中,输出应该是一个没有第 63-70 行的新数据帧。
我尝试做类似的事情来获取我可以在数据帧上使用的 True
/False
列表进行过滤:
('a' not in current_dataframe['name'])
但由于某种原因,这只会输出一个值:
>>> True
答案 0 :(得分:2)
您可以使用正则表达式:
import re
pat = re.compile("|".join(re.escape(l) for l in letters), flags=re.I)
print(df[~df["name"].str.contains(pat)])
打印:
id name
3 68 1号店
6 72 一
7 73 一一
8 74 一一二
9 77 一一列举
10 79 一一对应
11 80 一一记
12 81 一一道来
13 82 一丁
14 84 一丁点
答案 1 :(得分:1)
使用列表理解:
to_keep = [not any(letter in val for letter in letters) for val in df.name]
new_df = df[to_keep]
其中 to_keep
是一个布尔列表,如果没有字母中的任何字母在 True
的相应值中,则条目为 df.name
。然后我们使用布尔索引只保留那些行,
得到
>>> new_df
3 68 1号店
6 72 一
7 73 一一
8 74 一一二
9 77 一一列举
10 79 一一对应
11 80 一一记
12 81 一一道来
13 82 一丁
14 84 一丁点