我正在网页广告中提取标记html文字内容的字段......
35 new
在python中,提取的数据看起来像这样......
35\xa0new
如何处理python中的unicode转换为常规字符串?
“35新”
我使用哪个库?
由于
答案 0 :(得分:3)
尽可能避免使用常规字符串; unicode
通常对文本更有用,并且many well-known solutions用于操作和处理它们。
答案 1 :(得分:0)
您正在从解析器获取unicode字符串。如果您愿意,可以替换某些字符。例如,您的\xa0
是一个不间断的空间,您可以用常规空格替换它:
text = text.replace(u"\xa0", u" ")
您可能需要更改许多这些字符,因此查找数据中发生的所有字符可能需要很长时间。