代码:
2019/04/04
错误:
response = urllib2.urlopen('xxxxxxwebsite address')
html = response.read()
tree = etree.fromstring(html)
nodes = tree.xpath("//span[contains(@class,'badge-info')")
for node in nodes:
print(node.text)
Plesae建议我是否有比lxml更好的读取方法。
答案 0 :(得分:0)
您有错字:
tree.xpath("//span[contains(@class,'badge-info')]")
# ^ unclosed
答案 1 :(得分:0)
HTML并不是格式正确的XML,因此您必须使用HTMLParser()
或HTML()
才能使lxml恢复。
有关更多信息,请参见“ Parsing HTML”。