Twitter刚刚发布了与互联网巨魔场“ Internet Research Agency”(IRA)相关的数百万条推文。
这些大型数据集包括来自IRA的3841个帐户(源自俄罗斯)和770个其他帐户(可能源自伊朗)。其中包括超过1000万条推文和200万张图像,GIF,视频和Periscope广播,包括最早与这些活动相关的帐户在Twitter上的活动,可追溯到2009年。
BigQuery中是否有可用的数据集?如何找到最热门的标签?
答案 0 :(得分:1)
研究人员Josh Russell在BigQuery中共享了Twitter发布的数据集-现在您可以在其上编写查询。
按其标签获得的转发次数(英文)转发的热门消息:
#standardSQL
SELECT hashtag, SUM(retweets) total_retweets
, ARRAY_AGG(STRUCT(retweets, tweet_text) ORDER BY retweets DESC LIMIT 1) top_tweet
FROM (
SELECT REGEXP_EXTRACT_ALL(tweet_text, r'(?i)#[^ ,:\.\";\!]*') hashtags, tweet_text, retweet_count retweets
FROM `reddit-198411.IRAhashed.IRAhashed` a
WHERE tweet_language = 'en'
), UNNEST(hashtags) hashtag
WHERE ARRAY_LENGTH(hashtags)>0
GROUP BY 1
ORDER BY 2 DESC
LIMIT 1000
对于其他语言,我将结果导出到Google表格并运行GOOGLETRANSLATE()函数:
SELECT hashtag, retweets, top_tweet.*
FROM (
SELECT hashtag, SUM(retweet_count) retweets
, ARRAY_AGG(STRUCT(retweet_count AS top_rt_count, tweet_language AS lang, tweet_text AS top_tweet) ORDER BY retweet_count DESC LIMIT 1)[OFFSET(0)] top_tweet
FROM (
SELECT SPLIT(REGEXP_EXTRACT(hashtags, r'.(.*).$'), ', ') hashtags
, retweet_count, tweet_text, tweet_language
FROM `reddit-198411.IRAhashed.IRAhashed`
WHERE LENGTH(hashtags)>2
AND tweet_language NOT IN ('en', 'und')
), UNNEST(hashtags) hashtag
GROUP BY 1
ORDER BY 2 DESC
LIMIT 500
)
我在/r/bigquery上留下了其他查询: