我想将http://dumps.wikimedia.org/other/pagecounts-raw/的维基百科综合浏览量上传到BigQuery,这是最快的方式吗?
答案 0 :(得分:5)
这是一个经典的演示,我展示了如何轻松地将数据加载到BigQuery中。
要从维基百科获取一小时的综合浏览量,只需输入文件:
wget http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-06/pagecounts-20140602-180000.gz
然后将其加载到BigQuery中(应该花费更少或大约5分钟):
bq load -F" " --quote "" fh-bigquery:wikipedia.pagecounts_20140602-18 pagecounts-20140602-180000.gz language,title,requests:integer,content_size:integer
请注意,此文件的压缩大小约为100MB(gz),您无需解压缩此大小的文件以将其加载到BigQuery中。它包含大约800万行每小时的综合浏览量。
-F" "
:此文件由空格分隔,而不是逗号--quote ""
:此文件不使用字符串引号language,title,requests:integer,content_size:integer
:列。默认情况下,所有内容都以字符串形式加载,除非我们将其明确地转换为其他类型(在本例中为整数)。(需要先前安装bq tool)
我将此数据集设为公开,您可以在https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_20140602_18找到此表。
我还将所有八月份的综合浏览量保留在https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.wikipedia_views_201308(如果您SELECT SUM(requests) FROM [fh-bigquery:wikipedia.wikipedia_views_201308]
,则会有53亿次综合浏览量。