熊猫系列可能包含无效值:
a b c d e f g
1 "" "a3" np.nan "\n" "6" " "
df = pd.DataFrame([{"a":1, "b":"", "c":"a3", "d":np.nan, "e":"\n", "f":"6", "g":" "}])
row = df.iloc[0]
我想生成一个干净的系列,仅保留包含数字值或非空非空格字母数字字符串的列:
b
应该被删除,因为它是一个空字符串; d
因为np.nan
; e
和g
,因为只有空格的字符串。预期结果:
a c f
1 "a3" "6"
如何过滤包含数字或有效字母数字的列?
row.str.isalnum()
为NaN
返回a
,而不是我期望的True。row.astype(str).str.isalnum()
将d
的{{1}}更改为字符串np.nan
,随后将其视为有效字符串。"nan"
当然只会丢弃row.dropna()
(d
)。我看不到https://pandas.pydata.org/pandas-docs/stable/reference/series.html
列出了太多其他可能性作为一种解决方法,我可以循环使用items()检查类型和内容,并根据我想保留的值创建一个新的Series,但是这种方法效率低下(而且很丑陋):
np.nan
是否有任何布尔过滤器可以帮助我选出好的列?
答案 0 :(得分:2)
将值转换为字符串并通过Series.notna
与按位的AND
-&
链接另一个掩码:
row = row[row.astype(str).str.isalnum() & row.notna()]
print (row)
a 1
c a3
f 6
Name: 0, dtype: object
答案 1 :(得分:2)
您可以使用正则表达式
row[row.notna() & row.astype(str).str.match('[a-zA-Z0-9]+')]