&lt; 200b&gt; <! - 200b - >奇怪的签到字符串 - 如何删除它

时间:2015-02-04 08:41:33

标签: python unicode

我的琴弦中有这些奇怪的<200b></200b>符号。它是什么,我该如何删除它?它似乎只是空白

You appreciate traditional values ​​and expect respect

​​是我在控制台中查看时的显示方式。

1 个答案:

答案 0 :(得分:3)

如果要删除它,可以使用unicodedata ...

对其进行标准化
>>> import unicodedata
>>> unicodedata.normalize('NFC', u'Goodbye​​Garbage').encode('ascii', 
    'ignore')
'GoodbyeGarbage'
>>> 

请注意,这只会返回一个ASCII字符串,并且在使用此技术后您没有unicode。

另一个选项仅适用于您提供的示例...

>>> u'Goodbye​​Garbage'.encode('ascii', 'ignore')
'GoodbyeGarbage'
>>> 

添加unicodedata使您可以更灵活地处理奇怪的情况并将它们分解为真正的ASCII,但原始.encode('ascii', 'ignore')将删除所有unicode字符,而不首先尝试将它们标准化。