我正在通过内联网在网页上阅读
webpage = urllib2.urlopen(urllib2.Request(self.URL))
doc = webpage.read()
root = html.fromstring(doc)
我注意到我无法从此根对象通过findall()读取任何内容,然后通过以下方式查看根对象:
code = etree.tostring(root)
它产生了确切的HTML代码,但是带有
守则中的任何地方。我认为这可能会导致我的解析问题(我希望至少如此)。
如何从中获取干净的HTML代码?需要任何编码/解码吗?
我已尝试将其解码为UTF-8,但这并不是很有效。
print code.decode('utf-8')
答案 0 :(得分:0)
没关系,这不是问题。
问题在于我下载了网站并将其解析离线,然后潜入
< tbody>
我在Xpath查询中使用的标签。这导致我的脚本在通过lxml下载新网站时无法正常工作。