Question

我想将http://dumps.wikimedia.org/other/pagecounts-raw/的维基百科综合浏览量上传到BigQuery，这是最快的方式吗？

Answer 1

这是一个经典的演示，我展示了如何轻松地将数据加载到BigQuery中。

要从维基百科获取一小时的综合浏览量，只需输入文件：

wget http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-06/pagecounts-20140602-180000.gz

然后将其加载到BigQuery中（应该花费更少或大约5分钟）：

bq load -F" " --quote "" fh-bigquery:wikipedia.pagecounts_20140602-18 pagecounts-20140602-180000.gz language,title,requests:integer,content_size:integer

请注意，此文件的压缩大小约为100MB（gz），您无需解压缩此大小的文件以将其加载到BigQuery中。它包含大约800万行每小时的综合浏览量。

-F" "：此文件由空格分隔，而不是逗号
--quote ""：此文件不使用字符串引号
language,title,requests:integer,content_size:integer：列。默认情况下，所有内容都以字符串形式加载，除非我们将其明确地转换为其他类型（在本例中为整数）。

（需要先前安装bq tool）

我将此数据集设为公开，您可以在https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_20140602_18找到此表。

我还将所有八月份的综合浏览量保留在https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.wikipedia_views_201308（如果您SELECT SUM(requests) FROM [fh-bigquery:wikipedia.wikipedia_views_201308]，则会有53亿次综合浏览量。

如何将压缩文件加载到BigQuery中

1 个答案: