Question

我正在通过内联网在网页上阅读

        webpage = urllib2.urlopen(urllib2.Request(self.URL))
        doc =  webpage.read()
        root = html.fromstring(doc)

我注意到我无法从此根对象通过findall（）读取任何内容，然后通过以下方式查看根对象：

code = etree.tostring(root)

它产生了确切的HTML代码，但是带有



守则中的任何地方。我认为这可能会导致我的解析问题（我希望至少如此）。

如何从中获取干净的HTML代码？需要任何编码/解码吗？

我已尝试将其解码为UTF-8，但这并不是很有效。

print code.decode('utf-8')

Answer 1

没关系，这不是问题。

问题在于我下载了网站并将其解析离线，然后潜入

＆LT; tbody＆gt;

我在Xpath查询中使用的

标签。这导致我的脚本在通过lxml下载新网站时无法正常工作。