Question

我正在努力尝试在某些文档中找到一些注册号。最好的工具似乎是Pythons re模块。我创建了一个可以正常工作的正则表达式，但是当我移到一个命名组时，我无法使它正常工作。

这是我要从中提取的原始文本

    REGISTRATION NO.  874224207             PAGE 32

此正则表达式适用于Pythex

\s+\(?\s*REGISTRATION\s+NUMBER\)?[\.:]?\)?\s+[A-Z0-9#]{9}\s+|\s+\(?\s*REGISTRATION\s+NO\)?[\.:]?\)?\s+[A-Z0-9#]{9}\s+

但是当我命名捕获组Theregis时-这就是我想要的结果，我没有显示任何匹配项

\s+\(?\s*REGISTRATION\s+NUMBER\)?[\.:]?\)?\s+(?P<theregis>[A-Z0-9#]{9})\s+|\s+\(?\s*REGISTRATION\s+NO\)?[\.:]?\)?\s+(?P=theregis)\s+

根据文档

当我使用命名的群组时

最后-我用它作为模型

 p = re.compile(r'\b(?P<word>\w+)\s+(?P=word)\b')