Question

我正在网页广告中提取标记html文字内容的字段......

35&nbsp;new

在python中，提取的数据看起来像这样......

35\xa0new

如何处理python中的unicode转换为常规字符串？
“35新”

我使用哪个库？

由于

Answer 1

尽可能避免使用常规字符串; unicode通常对文本更有用，并且many well-known solutions用于操作和处理它们。

Answer 2

您正在从解析器获取unicode字符串。如果您愿意，可以替换某些字符。例如，您的\xa0是一个不间断的空间，您可以用常规空格替换它：

text = text.replace(u"\xa0", u" ")

您可能需要更改许多这些字符，因此查找数据中发生的所有字符可能需要很长时间。