在字符串中替换表情符号会导致奇数字符

时间:2016-06-23 00:52:36

标签: regex python-3.x encoding

我有这个字符串:s = '☀️✈️✈️вьетнам'

我想从中删除表情符号。

所以我正在做:

import re
emoji_re = re.compile(u'['
    u'\U0001F300-\U0001F64F'
    u'\U0001F680-\U0001F6FF'
    u'\u2600-\u26FF\u2700-\u27BF]+', 
    re.UNICODE)
new = emoji_re.sub(r'', s)

这给了我一个奇怪的结果,我将其显示为截图,因为我无法将其复制并粘贴到此处。

enter image description here

奇怪的是,你可以看到" print"告诉我正确的结果。为什么会这样?

1 个答案:

答案 0 :(得分:1)

我用这段代码试了一下ideone:

import re

s = '☀️✈️✈'
emoji_re = re.compile(u'['
    u'\U0001F300-\U0001F64F'
    u'\U0001F680-\U0001F6FF'
    u'\u2600-\u26FF\u2700-\u27BF]+', 
    re.UNICODE)
new = emoji_re.sub(r'', s)
print(new)

输出很好,很空。只是因为我加入了:

print(len(new))

哪个输出:

  

2

我很高兴看到我们正在处理不可打印的字符,这就是为什么你不能把它粘贴在这里。将字符串编码为utf-8:

print(new.encode("utf-8"))

输出

  

B '\ XEF \ XB8 \ X8F \ XEF \ XB8 \ X8F'

unicodelookup,似乎正则表达式错过了这个字符:

 variation selector-16  0xFE0F