我正在使用Google BigQuery探索GDELT的全球知识图(GKG)。
总结一下,我发现了一个奇怪的过程:随着时间的流逝,每天捕获的媒体文章的数量减少,而不是增加(因为假设在线新闻激增,这一点就可以了)
我的结果如下:
这是其他人可以证实的东西吗?可以通过GDELT始终添加新资源来解释这一点,这意味着要捕获大量积压的文章,因此,当资源数量稳定时,每天只捕获一小部分当前文章,因此可以每天进行计数新文章的减少?
我还隔离了GKG记录,其中来源(“ SourceCommonName”)与特定国家/地区匹配,并与https://blog.gdeltproject.org/mapping-the-media-a-geographic-lookup-of-gdelts-sources/
的地理查询表相结合自从我研究阿根廷媒体以来,我从阿根廷的资料中分离出记录,并得到了类似的结果:每日进度也显示出明显下降的斜率:
这是我每天用来计算GKG记录的查询:
SELECT
`DATE`,
count(*) AS `n`
FROM (
SELECT DIV(`DATE`, 1000000) AS `DATE`
FROM (
SELECT `DATE`
FROM `gdelt-bq.gdeltv2.gkg`)
)
GROUP BY `DATE`
任何见解将不胜感激!