熊猫正则表达式匹配项必须为数字和文字

时间:2020-05-19 12:48:42

标签: regex pandas

我想用正则表达式扫描以下熊猫系列:

样本数据:

s1 = pd.Series(['PQ4Y-ab56-kj23', 'dont-pick-this', '23', 'dont-pick-these', np.NaN])

目标是通过正则表达式确定系列中的第一个元素

我将以下正则表达式作为十个入门,但它确定了系列中的第一,第二和第三。

s1.str.match('\w{4}-\w{4}-\w{4}')

0     True
1     True
2    False
3     True
4      NaN

我需要修改正则表达式以考虑引起问题的两个因素:

  1. 它需要专门标识四个字符串-而不是包含四个或更多字符的字符串
  2. 它只需要匹配包含两个字母和数字的四个字符串,而不选择仅包含字母A-Z(或小写字母a-z)的字符串

非常感谢

0 个答案:

没有答案