Question

我正在编写一个函数来从python中的文本中分割数字和其他一些东西。代码看起来像这样：

EN_EXTRACT_REGEX = '([a-zA-Z]+)'
NUM_EXTRACT_REGEX = '([0-9]+)'
AGGR_REGEX = EN_EXTRACT_REGEX + '|' + NUM_EXTRACT_REGEX

entry = re.sub(AGGR_REGEX, r' \1\2', entry)

现在，这段代码在python3中运行得非常好，但它在python2下不起作用并得到“无法匹配的组”错误。

问题是，我需要支持这两个版本，虽然我尝试了其他各种方法，但我无法在python2中正常工作。

我很好奇这个问题的根源是什么，是否有任何解决方法？

Answer 1

我认为问题可能是正则表达式模式匹配一个或另一个子模式EN_EXTRACT_REGEX和NUM_EXTRACT_REGEX，但不是两者。

当re.sub()与第一个模式中的字母字符匹配时，它会尝试将第二个组引用替换为\2，但失败是因为只有第一个组匹配 - 没有第二个组。

同样，当数字模式匹配时，没有\1组可以替换，因此也会失败。

你可以看到Python 2中的测试就是这种情况：

>>> re.sub(AGGR_REGEX, r' \1', 'abcd')    # reference first pattern
 abcd
>>> re.sub(AGGR_REGEX, r' \2', 'abcd')    # reference second pattern
Traceback (most recent call last):
....
sre_constants.error: unmatched group

差异必须存在于Python 2和Python 3的正则表达式引擎的不同版本中。遗憾的是，我无法提供差异的明确理由，但是，re.sub()版本3.5中存在记录的更改关于无与伦比的群体：

在版本3.5中更改：不匹配的组将替换为空字符串。

解释了为什么它在Python＆gt; = 3.5中有效但在早期版本中没有用：基本上忽略了不匹配的组。

作为一种解决方法，您可以更改模式以将两个匹配作为一个组进行处理：

import re

EN_EXTRACT_REGEX = '[a-zA-Z]+'
NUM_EXTRACT_REGEX = '[0-9]+'
AGGR_REGEX = '(' + EN_EXTRACT_REGEX + '|' + NUM_EXTRACT_REGEX + ')'
# ([a-zA-Z]+|[0-9]+)

for s in '', '1234', 'abcd', 'a1b2c3', 'aa__bb__1122cdef', '_**_':
    print(re.sub(AGGR_REGEX, r' \1', s))

输出


 1234
 abcd
 a 1 b 2 c 3
 aa__ bb__ 1122 cdef
_**_

Python 2和3'重新'不一致

1 个答案: