lxml fromstring()产生HTML代码
到处

时间:2016-10-18 08:08:58

标签: python lxml elementtree

我正在通过内联网在网页上阅读

        webpage = urllib2.urlopen(urllib2.Request(self.URL))
        doc =  webpage.read()
        root = html.fromstring(doc)

我注意到我无法从此根对象通过findall()读取任何内容,然后通过以下方式查看根对象:

code = etree.tostring(root)

它产生了确切的HTML代码,但是带有

  



守则中的任何地方。我认为这可能会导致我的解析问题(我希望至少如此)。

如何从中获取干净的HTML代码?需要任何编码/解码吗?

我已尝试将其解码为UTF-8,但这并不是很有效。

print code.decode('utf-8')

1 个答案:

答案 0 :(得分:0)

没关系,这不是问题。

问题在于我下载了网站并将其解析离线,然后潜入

< tbody>

我在Xpath查询中使用的

标签。这导致我的脚本在通过lxml下载新网站时无法正常工作。