Question

我在Windows Vista 64位上使用Python.org版本2.7 64位。我正在使用正则表达式解析页面的HTML / Javascript代码并查找＆＃39; []＆＃39;之间的任何代码。我这样做是这样的：

regex = r'[.*?]'
string =  #point to website html here
myfinder = re.findall(regex, string)

正如本文的标题所示，我不确定如何将字符串定义为页面的HTML内容。我应该指出，我在Scrapy中使用CrawlSpider类来抓取同一网站的多个页面，我知道多个页面将包含我想要以这种格式存储的数据。

有人能为我提供解决方案吗？

由于

Answer 1

当与Scrapy一起使用时，以下内容将返回包含在两个方括号内的页面上的任何内容：

regex = r'\[.*?\]'
        match2 = re.findall(regex, response.body, re.S)
        print match2