在云中的大型JSON数据集中运行类似SQL的查询?

时间:2017-07-04 16:07:22

标签: json google-bigquery apache-drill bigdata

是否有符合这些要求的产品:

  • 运行类似SQL的查询(最好使用友好的UI,但必要时可以使用命令行)
  • 跨越数百万个文档的大部分静态JSON数据集,没有一致的架构
  • 将JSON文档存储在云中,而不是本地。

基本上,我想要Google BigQuery,但不需要一致的预先指定架构。

Apache Drill在具有不同模式的大型JSON数据集中提供类似SQL的查询。但是,我不认为它在云托管数据集上运行良好 - 已将其设置为与S3存储桶通信,并且似乎需要在本地下载所有数据,这使得它无法用于大型数据集。 / p>

1 个答案:

答案 0 :(得分:1)

BigQuery需要一个静态模式,但有一个选项是将表定义为CSV,并使用不会出现在数据中的分隔符,这意味着您只有一个字符串列。您将只能使用JSON_EXTRACT函数从JSON中提取数据,但可以从那里转换为其他数据类型等等。

您还可以考虑filing a feature request让BigQuery团队考虑支持文档类型,以便将来更轻松地使用此类数据。