我正在使用Anaconda 4.4.0。尝试使用0个或更多字符进行匹配时,我遇到了意外的匹配行为。我的模式似乎只在字符串值的开头工作,而不是在任何地方匹配。
temp = pd.DataFrame(['#aaaaab_1', 'xxaab_3', 'aaab_5', 'xab_8','ab_13','b_21', '666xyz'] )
temp[0].str.extract('([a-z]*)', expand=True)
0
0 <--missing value
1 xxaab
2 aaab
3 xab
4 ab
5 b
6 <--missing value
temp[0].str.extract('([0-9]*)', expand=True)
0
0 <--missing value
1 <--missing value
2 <--missing value
3 <--missing value
4 <--missing value
5 <--missing value
6 666
匹配行为似乎可以追溯到我提取一个或多个字符/数字时所期望的。
temp[0].str.extract('([0-9]+)', expand=True)
0
0 1
1 3
2 5
3 8
4 13
5 21
6 666
temp[0].str.extract('([a-z]+)', expand=True)
0
0 aaaaab
1 xxaab
2 aaab
3 xab
4 ab
5 b
6 xyz
答案 0 :(得分:2)
您遇到的问题是str.extract
找到第一个搜索(也是空字符串,这是输出的原因),然后返回该匹配而不再查看。事实上,2 nd 到6 th 行返回的空字符串多于空字符串,因为空字符串后面跟着更多匹配的字符。
正如您已经看到的那样,解决方案是修改正则表达式,使空字符串永远不会匹配(即避免使用*
)。
答案 1 :(得分:1)
你没有得到任何缺失值,你得到空字符串。 (它们不一样。)'([0-9]*)'
匹配任何空的数字字符串,数据帧的前六行肯定以空数字串开头。您应该要求至少一个数字'([0-9]+)'
或&#34;欺骗&#34;正则表达式首先要求任何非数字字符串,后跟任何数字字符串:
temp[0].str.extract('[^0-9]*([0-9]*)', expand=True)
# 0
#0 1
#1 3
#2 5
#3 8
#4 13
#5 21
#6 666