我有推文的json文件,其中包含以下数据。
ID,FUll名称,TEXT,时间戳,URL USER,全名,转发等
每个json文件都是UNIQUE但在某些jsons ['TEXT']字段中是相同的。
我想删除那些在['text']字段中包含相同推文的json文件。
这里是我的json文件的示例..两个json来自不同的用户,但他们发推文相同的文字。
{
'fullname': 'آدم',
'id': '772154564711768064',
'likes': '5',
'replies': '0',
'retweets': '0',
'text': '#GoNawazGoNawaz\n''This woman has realized the truth....hope nation realizes it ''too.... \n''#PanamaLeaks\n''#GoNawazGoNawazpic.twitter.com/6m7nWgldQp',
'timestamp': '2016-09-03T19:29:28',
'url': '/NaikOlad/status/772154564711768064',
'user': 'NaikOlad'
}{
'fullname': 'سلمان اعوان',
'id': '772156567542231040',
'likes': '0',
'replies': '0',
'retweets': '0',
'text': '#GoNawazGoNawaz\n''This woman has realized the truth....hope nation realizes it ''too.... \n''#PanamaLeaks\n''#GoNawazGoNawazpic.twitter.com/L2tZUOVs1z',
'timestamp': '2016-09-03T19:37:26',
'url': '/SaluBhai420/status/772156567542231040',
'user': 'SaluBhai420'
}
答案 0 :(得分:1)
import pandas as pd
df1 = pd.Dataframe()
df1 = df1.append(first_tweet_json,ignore_index=True)
df1 = df1.append(second_tweet_json,ignore_index=True)
df1 = df1.drop_duplicates(subset=['text'],keep='last')
print(df1)