如何从Python中的JSON转储中删除不寻常的字符?

时间:2018-09-28 16:51:14

标签: json python-3.x sentiment-analysis

我一直在寻找一种很好的方法,可以从JSON推文转储中删除所有异常字符,这些转储我正在使用这些转储来编译用于情感分析的数据集。

我要删除的字符=ン宝付宝付最安値

这些字符出现在我的tweet数据中,我试图使用正则表达式将其删除,但无济于事。

import json
import csv
import pandas as pd
import matplotlib.pyplot as plt

tweets_data_path = 'twitter_data.txt'

tweets_data = []
tweets_text_data = []
tweets_file = open(tweets_data_path, "r")
for line in tweets_file:
    try:
        tweet = json.loads(line)
        tweets_data.append(tweet)
    except:
        continue

for tweet in tweets_data:
    if tweet['text']:
        tweets_text_data.append(tweet['text'])

print(tweets_text_data)

with open('dataset_file', 'w') as dataset_file:
    writer = csv.writer(dataset_file)
    writer.writerow(tweets_text_data)

我尝试使用re.sub()删除这些字符,但是它不起作用。我该如何工作?

0 个答案:

没有答案