从数据帧中提取字符串时,Pandas不匹配零个或多个数字/字符

时间:2017-09-06 00:21:42

标签: python regex pandas dataframe extract

我正在使用Anaconda 4.4.0。尝试使用0个或更多字符进行匹配时,我遇到了意外的匹配行为。我的模式似乎只在字符串值的开头工作,而不是在任何地方匹配。

temp = pd.DataFrame(['#aaaaab_1', 'xxaab_3', 'aaab_5', 'xab_8','ab_13','b_21', '666xyz'] )
temp[0].str.extract('([a-z]*)', expand=True)

       0
0            <--missing value
1  xxaab
2   aaab
3    xab
4     ab
5      b
6            <--missing value

temp[0].str.extract('([0-9]*)', expand=True)

     0
0           <--missing value    
1           <--missing value    
2           <--missing value         
3           <--missing value         
4           <--missing value         
5           <--missing value         
6  666

匹配行为似乎可以追溯到我提取一个或多个字符/数字时所期望的。

temp[0].str.extract('([0-9]+)', expand=True)

     0
0    1
1    3
2    5
3    8
4   13
5   21
6  666

 temp[0].str.extract('([a-z]+)', expand=True)

        0
0  aaaaab
1   xxaab
2    aaab
3     xab
4      ab
5       b
6     xyz

2 个答案:

答案 0 :(得分:2)

您遇到的问题是str.extract找到第一个搜索(也是空字符串,这是输出的原因),然后返回该匹配而不再查看。事实上,2 nd 到6 th 行返回的空字符串多于空字符串,因为空字符串后面跟着更多匹配的字符。

正如您已经看到的那样,解决方案是修改正则表达式,使空字符串永远不会匹配(即避免使用*)。

答案 1 :(得分:1)

你没有得到任何缺失值,你得到空字符串。 (它们不一样。)'([0-9]*)'匹配任何空的数字字符串,数据帧的前六行肯定以空数字串开头。您应该要求至少一个数字'([0-9]+)'或&#34;欺骗&#34;正则表达式首先要求任何非数字字符串,后跟任何数字字符串:

temp[0].str.extract('[^0-9]*([0-9]*)', expand=True)
#     0
#0    1
#1    3
#2    5
#3    8
#4   13
#5   21
#6  666