Question

这是 this question 的后续行动（虽然我没有问过）。试着回答，我遇到了几个问题。

考虑字符串strings123[abc789123def456000]strings456，如何匹配方括号中未被span中的Python标记包围的数字（使用较新的regex模块）？
在示例字符串中，这将是789和000。

<小时/> 我正在摆弄\G之类的（demo）

(?:\G(?!\A)|\[)
[^\d\]]*
\K
\d+

和(*SKIP)(*FAIL)（demo）：

<span>.*?</span>(*SKIP)(*FAIL)
|
\d+

但无法将两个statements合并：

<span>.*?</span>(*SKIP)(*FAIL)
|
(?:
    (?:\G(?!\A)|\[)
    [^\d\]]*
    (\d+)
    [^\d\]]*
    \K
)

如何做到这一点？

Answer 1

我喜欢PyPi regex module的一个原因是它支持无限宽度后瞻：

可变长度的后视



lookbehind可以匹配可变长度的字符串。

>>> import regex
>>> s = 'strings123[abc789<span>123</span>def<span>456</span>000]strings456'
>>> rx = r'(?<=\[[^][]*)(?:<span>[^<]*</span>(*SKIP)(?!)|\d+)(?=[^][]*])'
>>> regex.findall(rx, s)
['789', '000']
>>>

模式详情：

(?<=\[[^][]*) - 当前位置左侧必须有[以及除]和[以外的零个或多个字符
(?: - 非捕获组开始
- [^<]*(*SKIP)(?!) - 匹配，然后匹配<以外的0 +字符（带有[^<]*否定字符类），然后是和在比赛结束位置停止比赛，然后继续寻找下一场比赛
- | - 或
- \d+ - 1+位数
(?=[^][]*]) - 当前位置右侧的]和]以外的零个或多个字符后必须有[。

Answer 2

我想到了一个如下算法。

在其中搜索方括号和内容，并将结果存储在变量中。正则表达式将是\[[^]]*\]。
现在搜索代码并将其替换为-，只是为了简化下一步。正则表达式为(.*?)。
现在，除了标签之外，您将留下方括号的内容。只需使用\d+进行搜索即可匹配数字。

在特定位置匹配

2 个答案: