Python:使用lxml时的回溯

时间:2019-04-04 01:14:49

标签: python lxml

代码:

2019/04/04

错误:

response = urllib2.urlopen('xxxxxxwebsite address')
html = response.read()
tree = etree.fromstring(html)
nodes = tree.xpath("//span[contains(@class,'badge-info')")
for node in nodes:
    print(node.text)

Plesae建议我是否有比lxml更好的读取方法。

2 个答案:

答案 0 :(得分:0)

您有错字:

tree.xpath("//span[contains(@class,'badge-info')]")
#                                               ^ unclosed

答案 1 :(得分:0)

HTML并不是格式正确的XML,因此您必须使用HTMLParser()HTML()才能使lxml恢复。

有关更多信息,请参见“ Parsing HTML”。