应用错误收集

Python：使用lxml时的回溯

时间：2019-04-04 01:14:49

标签： python lxml

代码：

2019/04/04

错误：

response = urllib2.urlopen('xxxxxxwebsite address')
html = response.read()
tree = etree.fromstring(html)
nodes = tree.xpath("//span[contains(@class,'badge-info')")
for node in nodes:
    print(node.text)

Plesae建议我是否有比lxml更好的读取方法。

2 个答案:

答案 0 :(得分：0)

您有错字：

tree.xpath("//span[contains(@class,'badge-info')]")
#                                               ^ unclosed

答案 1 :(得分：0)

HTML并不是格式正确的XML，因此您必须使用HTMLParser()或HTML()才能使lxml恢复。

有关更多信息，请参见“ Parsing HTML”。