网页在标签之间刮擦

时间:2014-08-03 18:09:36

标签: regex python-2.7 web-scraping

我正在尝试从网页获取标签之间的所有内容。我的代码是输出空数组。当我打印htmltext时,它会显示页面的完整内容,但不会显示标签的内容。

 import urllib
 import re

 urlToOpen = "webAddress"
 htmlfile = urllib.urlopen(urlToOpen)
 htmltext = htmlfile.read()
 regex = '<h5> (.*)  </h5>'
 pattern = re.compile(regex)
 names = re.findall(pattern,htmltext)
 print "The h5 tag contains: ", names

1 个答案:

答案 0 :(得分:0)

不要在标签和正则表达式之间留出空格。写得像这样:

regex = '<h5>(.+?)</h5>'