Question

我正在尝试从网页获取标签之间的所有内容。我的代码是输出空数组。当我打印htmltext时，它会显示页面的完整内容，但不会显示标签的内容。

 import urllib
 import re

 urlToOpen = "webAddress"
 htmlfile = urllib.urlopen(urlToOpen)
 htmltext = htmlfile.read()
 regex = '<h5> (.*)  </h5>'
 pattern = re.compile(regex)
 names = re.findall(pattern,htmltext)
 print "The h5 tag contains: ", names

Answer 1

不要在标签和正则表达式之间留出空格。写得像这样：

regex = '<h5>(.+?)</h5>'

网页在标签之间刮擦

1 个答案: