我在Windows Vista 64位上使用Python.org版本2.7 64位。我正在使用正则表达式解析页面的HTML / Javascript代码并查找' []'之间的任何代码。我这样做是这样的:
regex = r'[.*?]'
string = #point to website html here
myfinder = re.findall(regex, string)
正如本文的标题所示,我不确定如何将字符串定义为页面的HTML内容。我应该指出,我在Scrapy中使用CrawlSpider类来抓取同一网站的多个页面,我知道多个页面将包含我想要以这种格式存储的数据。
有人能为我提供解决方案吗?
由于
答案 0 :(得分:0)
当与Scrapy一起使用时,以下内容将返回包含在两个方括号内的页面上的任何内容:
regex = r'\[.*?\]'
match2 = re.findall(regex, response.body, re.S)
print match2