如何使用Google的BigQuery查询Wikipedia全文转储

时间:2013-01-14 20:17:43

标签: wikipedia google-bigquery bigdata data-dump

我正在测试Google API中的BigQuery,并希望在Wikipedia全文转储上运行一些查询。 Google示例数据不包括全文转储(仅限修订历史记录)。

维基百科转储的来源很少,例如亚马逊上的这个: http://aws.amazon.com/datasets/2506

我的问题是: 有没有办法查询这些数据集而不将它们转移到Google BigQuery项目?同样,BigQuery有一种方法可以直接与其中一个数据集进行通信吗?

如果BigQuery不可能,那么在Amazon EC2中是否有相同的服务可以做同样的事情?

谢谢。

1 个答案:

答案 0 :(得分:1)

  

有没有办法查询这些数据库而不将它们转移到Google BigQuery项目?

没有。 BigQuery针对BigQuery项目和数据集进行操作。

  

同样,BigQuery有一种方法可以直接与其中一个数据集进行通信吗?

同等地,没有。出于完全相同的原因。

  

如果BigQuery不可能,那么在Amazon EC2中是否有相同的服务可以做同样的事情?

不,不是真的。有Amazon Cloud Search,但它基本上使用相同的主体运行,并要求您上传要搜索的数据。因此,除非somone已将该数据上传到Amazon Cloud Search帐户,否则,如果不上传数据,就无法做到这一点。