lxml - root.xpath()返回带有\ r的HtmlElements替换为  处理这个问题的最佳做法是什么?

时间:2012-02-10 04:22:23

标签: python xpath lxml

以下代码在HTML

中打印了一堆不需要的
实体
import lxml.html
page = lxml.html.parse('http://www.crutchfield.com/m_247250/Satellite-Radio.html?tp=11').getroot()
category = page.xpath("//*[text()='By Category']/following-sibling::div[1]")[0]
print lxml.html.tostring(category)

所有\r
内的page.xpath(..)替换。 page本身没有任何问题:

import lxml.html
page = lxml.html.parse('http://www.crutchfield.com/m_247250/Satellite-Radio.html?tp=11').getroot()
print lxml.html.tostring(page)

在构建我们的lxml.html.Element之前过滤掉'\ r'工作正常,但是如果它足够普遍,我对处理“问题类型”的最佳实践更感兴趣。

0 个答案:

没有答案