我需要使用python脚本从某些字符串中删除表情符号。我发现有人已经问了这个question,其中一个答案被标记为成功,即以下代码可以解决问题:
#!/usr/bin/env python
import re
text = u'This dog \U0001f602'
print(text) # with emoji
emoji_pattern = re.compile("["
u"\U0001F600-\U0001F64F" # emoticons
u"\U0001F300-\U0001F5FF" # symbols & pictographs
u"\U0001F680-\U0001F6FF" # transport & map symbols
u"\U0001F1E0-\U0001F1FF" # flags (iOS)
"]+", flags=re.UNICODE)
print(emoji_pattern.sub(r'', text)) # no emoji
我将此代码插入到我的脚本中,并将其更改为仅对代码中的字符串进行操作而不是示例文本。但是,当我运行代码时,我会遇到一些我不理解的错误:
Traceback (most recent call last):
File "SCRIPT.py", line 31, in get_tweets
"]+", flags=re.UNICODE)
File "/usr/local/Cellar/python/2.7.12/Frameworks/Python.framework /Versions/2.7/lib/python2.7/re.py", line 194, in compile
return _compile(pattern, flags)
File "/usr/local/Cellar/python/2.7.12/Frameworks/Python.framework/Versions/2.7/lib/python2.7/re.py", line 251, in _compile
raise error, v # invalid expression
sre_constants.error: bad character range
我得到了错误所说的内容,但是自从我从Stackexchange中获取此代码后,我无法弄清楚为什么它在本次讨论中显然对人们起作用而对我不起作用。我有兴趣使用Python 2.7。谢谢!
答案 0 :(得分:0)
您的Python构建使用surrogate pairs来表示无法用16位表示的unicode字符 - 它是所谓的"窄构建"。这意味着任何等于或高于u"\U00010000"
的值都将存储为两个字符。因为即使在unicode模式下,正则表达式解析器也会逐个字符地工作,如果您尝试使用该范围内的字符,这可能会导致错误的行为。
在这种特殊情况下,Python只看到第一个"一半"表情符号字符代码作为范围的结尾,并且#34;一半"小于范围的起始值,使其无效。
Python 2.7.10 (default, Jun 1 2015, 09:44:56)
[GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> sys.maxunicode
65535
>>> tuple(u"\U00010000")
(u'\ud800', u'\udc00')
基本上,你需要得到一个"广泛的构建" Python的工作原理:
Python 3.5.2 (default, Jul 28 2016, 21:28:00)
[GCC 4.2.1 Compatible Apple LLVM 7.3.0 (clang-703.0.31)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> sys.maxunicode
1114111
>>> tuple(u"\U00010000")
('',)
该字符在浏览器中没有正确显示给我,但它只显示一个字符,而不是两个字符。