使用python删除文本中的未知代码

时间:2014-11-08 17:26:06

标签: python html unicode

我在文中看到了\xe2\x80...等未知代码,这些代码究竟是什么?我怎么能从python中的文本中删除它们?

以下是文字:

"Are you using bribery \xe2\x80\x94 or the less provocative \xe2\x80\x9crewards\xe2\x80\x9d \xe2\x80\x94 to push your girls to succeed this year?"

1 个答案:

答案 0 :(得分:0)

您看到的未知代码是和引号。所以这些是用utf-8编码的普通字符。如果你真的想删除它们:

text_without_unicode_chrs = ''.join(ch for ch in text if ch<'\x80')