我正在努力尝试在某些文档中找到一些注册号。最好的工具似乎是Pythons re模块。我创建了一个可以正常工作的正则表达式,但是当我移到一个命名组时,我无法使它正常工作。
这是我要从中提取的原始文本
REGISTRATION NO. 874224207 PAGE 32
此正则表达式适用于Pythex
\s+\(?\s*REGISTRATION\s+NUMBER\)?[\.:]?\)?\s+[A-Z0-9#]{9}\s+|\s+\(?\s*REGISTRATION\s+NO\)?[\.:]?\)?\s+[A-Z0-9#]{9}\s+
但是当我命名捕获组Theregis时-这就是我想要的结果,我没有显示任何匹配项
\s+\(?\s*REGISTRATION\s+NUMBER\)?[\.:]?\)?\s+(?P<theregis>[A-Z0-9#]{9})\s+|\s+\(?\s*REGISTRATION\s+NO\)?[\.:]?\)?\s+(?P=theregis)\s+
根据文档
当我使用命名的群组时
最后-我用它作为模型
p = re.compile(r'\b(?P<word>\w+)\s+(?P=word)\b')