Question

我正在尝试使用正则表达式匹配Python中的html代码。我正在使用的行是html的“第50页第1页”。我用Google搜索了re文档并尝试了以下代码：

pattern = 'Page [0-9]+ of ([0-9]+)'
#or 
pattern = r'Page [0-9]+ of ([0-9]+)/w'

这无济于事。我该怎么办？

@property
def page_count(self):
    content = self.soup.select_one(AllBooksPageLocators.PAGER).string
    pattern = 'Page [0-9]+ of ([0-9]+)'
    matcher = re.search(pattern, content)
    pages = int(matcher.group(1))
    return pages

Answer 1

您的模式为correct。匹配组位于

matcher.group(0)

但是会导致

'Page 1 of 50'

然后您可能会看看如何解析文本示例

正则表达式中“数字，单词和空格”的代码是什么？

1 个答案: