如何从json文件中获取Distinct或UNIQUE字符串行

时间:2018-03-24 19:06:59

标签: python json regex string twitter

我有推文的json文件,其中包含以下数据。

ID,FUll名称,TEXT,时间戳,URL USER,全名,转发等

每个json文件都是UNIQUE但在某些jsons ['TEXT']字段中是相同的。

我想删除那些在['text']字段中包含相同推文的json文件。

这里是我的json文件的示例..两个json来自不同的用户,但他们发推文相同的文字。

    {
  'fullname': 'آدم',
  'id': '772154564711768064',
  'likes': '5',
  'replies': '0',
  'retweets': '0',
  'text': '#GoNawazGoNawaz\n''This woman has realized the truth....hope nation realizes it ''too.... \n''#PanamaLeaks\n''#GoNawazGoNawazpic.twitter.com/6m7nWgldQp',
  'timestamp': '2016-09-03T19:29:28',
  'url': '/NaikOlad/status/772154564711768064',
  'user': 'NaikOlad'
}{
  'fullname': 'سلمان اعوان',
  'id': '772156567542231040',
  'likes': '0',
  'replies': '0',
  'retweets': '0',
  'text': '#GoNawazGoNawaz\n''This woman has realized the truth....hope nation realizes it ''too.... \n''#PanamaLeaks\n''#GoNawazGoNawazpic.twitter.com/L2tZUOVs1z',
  'timestamp': '2016-09-03T19:37:26',
  'url': '/SaluBhai420/status/772156567542231040',
  'user': 'SaluBhai420'
}

1 个答案:

答案 0 :(得分:1)

import pandas as pd
df1 = pd.Dataframe()
df1 = df1.append(first_tweet_json,ignore_index=True)
df1 = df1.append(second_tweet_json,ignore_index=True)
df1 = df1.drop_duplicates(subset=['text'],keep='last')
print(df1)