我有一个txt文件,该文件具有从Twitter的api收到的tweets的json格式。使用python时,符号用于识别表情符号。有什么办法可以删除它们?
我的代码是:
import json
import re
with open('5.txt')as json_data:
data = json.load(json_data)
for r in data['results']:
r['text'] = r['text'].replace(',', '').replace('\'', '').replace('\n', ' ').replace('\r', '')
print ( r['text'].encode("utf-8") )
示例推文:
我已经在美国生活了将近6年,但仍然不了解某些人反对更严格的枪支管制政策。
我尝试这样做 导入json 汇入
with open('5.txt')as json_data:
data = json.load(json_data)
for r in data['results']:
r['text'] = r['text'].replace(',', '').replace('\'', '').replace('\n', ' ').replace('\r', '')
print ( r['text'].encode("utf-8") )
emoji_pattern = re.compile(
u"(\ud83d[\ude00-\ude4f])|" # emoticons
u"(\ud83c[\udf00-\uffff])|" # symbols & pictographs (1 of 2)
u"(\ud83d[\u0000-\uddff])|" # symbols & pictographs (2 of 2)
u"(\ud83d[\ude80-\udeff])|" # transport & map symbols
u"(\ud83c[\udde0-\uddff])" # flags (iOS)
"+", flags=re.UNICODE)
print(emoji_pattern.sub(r'',r['text'].encode("utf-8")))