这个正则表达式假设是删除表情符号但是当我在我的示例文本上尝试它时,它不起作用。它以前工作..不确定我错过了什么。谢谢
以下是示例文本:pastebin.com/uYUNk9R1 放在记事本文档中进行测试,Python 2.7。
import re
myre = re.compile('('
'\ud83c[\udf00-\udfff]|'
'\ud83d[\udc00-\ude4f\ude80-\udeff]|'
'[\u2600-\u26FF\u2700-\u27BF])+'.decode('unicode_escape'),
re.UNICODE)
def clean(inputFile,outputFile):
with open(inputFile, 'r') as original,open(outputFile, 'w+') as out:
for line in original:
line = myre.sub('', line)
out.write(line)