我在文中看到了\xe2\x80...
等未知代码,这些代码究竟是什么?我怎么能从python中的文本中删除它们?
以下是文字:
"Are you using bribery \xe2\x80\x94 or the less provocative \xe2\x80\x9crewards\xe2\x80\x9d \xe2\x80\x94 to push your girls to succeed this year?"
答案 0 :(得分:0)
您看到的未知代码是—
和引号“
。所以这些是用utf-8编码的普通字符。如果你真的想删除它们:
text_without_unicode_chrs = ''.join(ch for ch in text if ch<'\x80')