使用Google BigQuery分析GDELT GKG:随着时间的推移,每天添加的记录数量会减少

时间:2019-03-05 20:47:14

标签: sql google-bigquery

我正在使用Google BigQuery探索GDELT的全球知识图(GKG)。

总结一下,我发现了一个奇怪的过程:随着时间的流逝,每天捕获的媒体文章的数量减少,而不是增加(因为假设在线新闻激增,这一点就可以了)

我的结果如下:

GDELT's GKG: records per day

这是其他人可以证实的东西吗?可以通过GDELT始终添加新资源来解释这一点,这意味着要捕获大量积压的文章,因此,当资源数量稳定时,每天只捕获一小部分当前文章,因此可以每天进行计数新文章的减少?

我还隔离了GKG记录,其中来源(“ SourceCommonName”)与特定国家/地区匹配,并与https://blog.gdeltproject.org/mapping-the-media-a-geographic-lookup-of-gdelts-sources/

的地理查询表相结合

自从我研究阿根廷媒体以来,我从阿根廷的资料中分离出记录,并得到了类似的结果:每日进度也显示出明显下降的斜率:

GDELT's GKG: records per day - Argentina sources

这是我每天用来计算GKG记录的查询:

SELECT 
   `DATE`, 
   count(*) AS `n`
FROM (
   SELECT DIV(`DATE`, 1000000) AS `DATE`
   FROM (
      SELECT `DATE`
      FROM `gdelt-bq.gdeltv2.gkg`)
   )
GROUP BY `DATE`

任何见解将不胜感激!

0 个答案:

没有答案