我正在尝试从网页获取标签之间的所有内容。我的代码是输出空数组。当我打印htmltext时,它会显示页面的完整内容,但不会显示标签的内容。
import urllib
import re
urlToOpen = "webAddress"
htmlfile = urllib.urlopen(urlToOpen)
htmltext = htmlfile.read()
regex = '<h5> (.*) </h5>'
pattern = re.compile(regex)
names = re.findall(pattern,htmltext)
print "The h5 tag contains: ", names
答案 0 :(得分:0)
不要在标签和正则表达式之间留出空格。写得像这样:
regex = '<h5>(.+?)</h5>'