正则表达式排队

时间:2014-07-30 01:58:58

标签: python html regex web-scraping

我有一个html文件,我正在阅读以下行。我想只抓住'之后出现的数字:'在'之前,'使用REGEX ...感谢提前

"totalPages":15,"bloodhoundHtml"

3 个答案:

答案 0 :(得分:1)

"totalPages":([0-9]*),

您可以看到演示here

然后python代码是

import re

p = re.compile('"totalPages":([0-9]*),')
print p.findall('"totalPages":15,"bloodhoundHtml"')

答案 1 :(得分:0)

您可以尝试:\d+,获取':15,' 然后你可以先修剪':'并修剪结束','以获得纯数字, 我不知道python是否可以在正则表达式中使用变量,我是#programe,在c#中,我可以使用:(?<id>\d+),匹配此字符串,并直接通过result.group["id"]

答案 2 :(得分:0)

:\d{1,},

也适用于解析您提供的行。根据{{​​3}}帖子,您可能会在解析HTML

时遇到一些麻烦