我一直在寻找一种很好的方法,可以从JSON推文转储中删除所有异常字符,这些转储我正在使用这些转储来编译用于情感分析的数据集。
我要删除的字符=ン宝付宝付最安値
这些字符出现在我的tweet数据中,我试图使用正则表达式将其删除,但无济于事。
import json
import csv
import pandas as pd
import matplotlib.pyplot as plt
tweets_data_path = 'twitter_data.txt'
tweets_data = []
tweets_text_data = []
tweets_file = open(tweets_data_path, "r")
for line in tweets_file:
try:
tweet = json.loads(line)
tweets_data.append(tweet)
except:
continue
for tweet in tweets_data:
if tweet['text']:
tweets_text_data.append(tweet['text'])
print(tweets_text_data)
with open('dataset_file', 'w') as dataset_file:
writer = csv.writer(dataset_file)
writer.writerow(tweets_text_data)
我尝试使用re.sub()删除这些字符,但是它不起作用。我该如何工作?