应用错误收集

lxml - root.xpath（）返回带有\ r的HtmlElements替换为处理这个问题的最佳做法是什么？

时间：2012-02-10 04:22:23

标签： python xpath lxml

以下代码在HTML

中打印了一堆不需要的实体

import lxml.html
page = lxml.html.parse('http://www.crutchfield.com/m_247250/Satellite-Radio.html?tp=11').getroot()
category = page.xpath("//*[text()='By Category']/following-sibling::div[1]")[0]
print lxml.html.tostring(category)

所有\r被内的page.xpath(..)替换。 page本身没有任何问题：

import lxml.html
page = lxml.html.parse('http://www.crutchfield.com/m_247250/Satellite-Radio.html?tp=11').getroot()
print lxml.html.tostring(page)

在构建我们的lxml.html.Element之前过滤掉'\ r'工作正常，但是如果它足够普遍，我对处理“问题类型”的最佳实践更感兴趣。

0 个答案:

没有答案