访问公共堆栈溢出数据集的BigQuery存档实例

时间:2018-11-13 11:55:26

标签: google-bigquery

我正在尝试分析随着时间推移有关堆栈溢出问题的VIEWS数量。我只需要过去1-2年的一些快照(例如每季度),以展示不同技术对“答案”的需求如何随时间变化。

enter image description here

有人知道是否可以访问BigQuery中公共数据集的历史版本? Google必须跟踪这些数据库随着时间的推移而变化和发展。

BigQuery托管了StackOverflow的最新数据集。尽管这可以分析何时提问和回答问题,但它并不能告诉您观看次数如何随时间变化。我还探讨了使用徽章和授予徽章的日期作为评估视图计数更改的一种方法,但这太粗糙了。

Internet档案库中有一个来自Stack Exchange的数据转储(2018年3月),但这还不够!

1 个答案:

答案 0 :(得分:1)

您很幸运,我对这个问题有一个完美的答案:是的。

检查:https://towardsdatascience.com/these-are-the-real-stack-overflow-trends-use-the-pageviews-c439903cd1a

要查询我的档案,您可以执行以下操作:

#standardSQL
WITH historic_views AS (
  SELECT *, '201703' q
  FROM `fh-bigquery.stackoverflow_archive.201703_posts_questions` 
  UNION ALL
  SELECT *, '201706' q 
  FROM `fh-bigquery.stackoverflow_archive.201706_posts_questions` 
  UNION ALL
  SELECT *,  '201709' q 
  FROM `fh-bigquery.stackoverflow_archive.201709_posts_questions` 
  UNION ALL
  SELECT *, '201712' q 
  FROM `fh-bigquery.stackoverflow_archive.201712_posts_questions` 
  UNION ALL
  SELECT *, '201803' q 
  FROM `fh-bigquery.stackoverflow_archive.201803_posts_questions` 
  UNION ALL
  SELECT *, '201806' q 
  FROM `fh-bigquery.stackoverflow_archive.201806_posts_questions` 
)