在IRA巨魔推文数据集中找到最热门的标签?

时间:2018-10-23 06:57:31

标签: twitter google-bigquery opendata

Twitter刚刚发布了与互联网巨魔场“ Internet Research Agency”(IRA)相关的数百万条推文。

  

这些大型数据集包括来自IRA的3841个帐户(源自俄罗斯)和770个其他帐户(可能源自伊朗)。其中包括超过1000万条推文和200万张图像,GIF,视频和Periscope广播,包括最早与这些活动相关的帐户在Twitter上的活动,可追溯到2009年。

BigQuery中是否有可用的数据集?如何找到最热门的标签?

1 个答案:

答案 0 :(得分:1)

研究人员Josh Russell在BigQuery中共享了Twitter发布的数据集-现在您可以在其上编写查询。

按其标签获得的转发次数(英文)转发的热门消息:

#standardSQL
SELECT hashtag, SUM(retweets) total_retweets
  , ARRAY_AGG(STRUCT(retweets, tweet_text) ORDER BY retweets DESC LIMIT 1) top_tweet
FROM (
  SELECT REGEXP_EXTRACT_ALL(tweet_text, r'(?i)#[^ ,:\.\";\!]*') hashtags, tweet_text, retweet_count retweets 
  FROM `reddit-198411.IRAhashed.IRAhashed` a 
  WHERE tweet_language  = 'en'
), UNNEST(hashtags) hashtag
WHERE ARRAY_LENGTH(hashtags)>0
GROUP BY 1
ORDER BY 2 DESC
LIMIT 1000

enter image description here

对于其他语言,我将结果导出到Google表格并运行GOOGLETRANSLATE()函数:

SELECT hashtag, retweets, top_tweet.*
FROM (
  SELECT hashtag, SUM(retweet_count) retweets
    , ARRAY_AGG(STRUCT(retweet_count AS top_rt_count, tweet_language AS lang, tweet_text AS top_tweet) ORDER BY retweet_count DESC LIMIT 1)[OFFSET(0)] top_tweet
  FROM (
    SELECT SPLIT(REGEXP_EXTRACT(hashtags, r'.(.*).$'), ', ') hashtags
      , retweet_count, tweet_text, tweet_language   
    FROM `reddit-198411.IRAhashed.IRAhashed` 
    WHERE LENGTH(hashtags)>2
    AND tweet_language NOT IN ('en', 'und')
  ), UNNEST(hashtags) hashtag
  GROUP BY 1
  ORDER BY 2 DESC
  LIMIT 500
)

enter image description here

我在/r/bigquery上留下了其他查询: