使用lxml进行Python,Unicode和解析以及如何处理35 \ xa0new

时间:2011-10-08 01:40:55

标签: python html unicode lxml

我正在网页广告中提取标记html文字内容的字段......

35 new

在python中,提取的数据看起来像这样......

35\xa0new

如何处理python中的unicode转换为常规字符串?
“35新”

我使用哪个库?

由于

2 个答案:

答案 0 :(得分:3)

尽可能避免使用常规字符串; unicode通常对文本更有用,并且many well-known solutions用于操作和处理它们。

答案 1 :(得分:0)

您正在从解析器获取unicode字符串。如果您愿意,可以替换某些字符。例如,您的\xa0是一个不间断的空间,您可以用常规空格替换它:

text = text.replace(u"\xa0", u" ")

您可能需要更改许多这些字符,因此查找数据中发生的所有字符可能需要很长时间。