Question

我正在使用Anaconda 4.4.0。尝试使用0个或更多字符进行匹配时，我遇到了意外的匹配行为。我的模式似乎只在字符串值的开头工作，而不是在任何地方匹配。

temp = pd.DataFrame(['#aaaaab_1', 'xxaab_3', 'aaab_5', 'xab_8','ab_13','b_21', '666xyz'] )
temp[0].str.extract('([a-z]*)', expand=True)

       0
0            <--missing value
1  xxaab
2   aaab
3    xab
4     ab
5      b
6            <--missing value

temp[0].str.extract('([0-9]*)', expand=True)

     0
0           <--missing value    
1           <--missing value    
2           <--missing value         
3           <--missing value         
4           <--missing value         
5           <--missing value         
6  666

匹配行为似乎可以追溯到我提取一个或多个字符/数字时所期望的。

temp[0].str.extract('([0-9]+)', expand=True)

     0
0    1
1    3
2    5
3    8
4   13
5   21
6  666

 temp[0].str.extract('([a-z]+)', expand=True)

        0
0  aaaaab
1   xxaab
2    aaab
3     xab
4      ab
5       b
6     xyz

Answer 1

您遇到的问题是str.extract找到第一个搜索（也是空字符串，这是输出的原因），然后返回该匹配而不再查看。事实上，2 ^nd到6 ^th行返回的空字符串多于空字符串，因为空字符串后面跟着更多匹配的字符。

正如您已经看到的那样，解决方案是修改正则表达式，使空字符串永远不会匹配（即避免使用*）。

Answer 2

你没有得到任何缺失值，你得到空字符串。（它们不一样。）'([0-9]*)'匹配任何空的数字字符串，数据帧的前六行肯定以空数字串开头。您应该要求至少一个数字'([0-9]+)'或＆＃34;欺骗＆＃34;正则表达式首先要求任何非数字字符串，后跟任何数字字符串：

temp[0].str.extract('[^0-9]*([0-9]*)', expand=True)
#     0
#0    1
#1    3
#2    5
#3    8
#4   13
#5   21
#6  666

从数据帧中提取字符串时，Pandas不匹配零个或多个数字/字符

2 个答案: