如何将字符串设置为与re.findall一起使用的页面HTML / Javascript代码

时间:2014-08-03 17:54:48

标签: python regex scrapy

我在Windows Vista 64位上使用Python.org版本2.7 64位。我正在使用正则表达式解析页面的HTML / Javascript代码并查找' []'之间的任何代码。我这样做是这样的:

regex = r'[.*?]'
string =  #point to website html here
myfinder = re.findall(regex, string)

正如本文的标题所示,我不确定如何将字符串定义为页面的HTML内容。我应该指出,我在Scrapy中使用CrawlSpider类来抓取同一网站的多个页面,我知道多个页面将包含我想要以这种格式存储的数据。

有人能为我提供解决方案吗?

由于

1 个答案:

答案 0 :(得分:0)

当与Scrapy一起使用时,以下内容将返回包含在两个方括号内的页面上的任何内容:

regex = r'\[.*?\]'
        match2 = re.findall(regex, response.body, re.S)
        print match2