如何计算pandas数据帧上的非字母数字字符

时间:2018-03-12 09:27:20

标签: python pandas text feature-extraction non-alphanumeric

这是我的数据

No  Body
1   DaTa, Analytics 2
2   StackOver. 67%

这是我的预期输出

No  Body                 Non Alphanumeric   
1   DaTa, Analytics 2    1       
2   StackOver. 67%       2  

我只计算! @ # & ( ) % – [ { } ] : ; ', ? / *空格之类的非字母数字,且数字不计算

1 个答案:

答案 0 :(得分:3)

您可以使用:

df['Non Alphanumeric'] = df['Body'].str.findall(r'[^a-zA-Z0-9 ]').str.len()

或者:

df['Non Alphanumeric'] = df['Body'].str.count(r'[^a-zA-Z0-9 ]')

print (df)
   No               Body  Non Alphanumeric
0   1  DaTa, Analytics 2                 1
1   2     StackOver. 67%                 2