Google Dataproc和BigQuery与自定义查询集成

时间:2016-04-20 16:13:29

标签: google-bigquery google-cloud-dataproc

我正在使用Google dataproc运行spark群集。我想使用自定义查询从big-query获取数据。我能够运行基本的单词计数示例,但我正在寻找一种方法来运行自定义查询 e.g。

SELECT ROW_NUMBER() OVER() as Id, prop11 FROM (
    SELECT prop11 FROM (
        TABLE_DATE_RANGE([mapping.abc_v2_], DATE_ADD(CURRENT_TIMESTAMP(), -1, 'MONTH'), CURRENT_TIMESTAMP())
    ) WHERE (prop11 IS NOT null AND prop11 !="") GROUP EACH BY prop11
)

我们在hadoop bigquery连接器中是否有Java API?

1 个答案:

答案 0 :(得分:0)

目前,用于Hadoop的BigQuery Connector没有支持执行BigQuery查询的机制。

如果您的查询可以表示为Spark SQL或通过Spark转换,那么您可以使用从BigQuery到GCS(当前的BigQuery Hadoop Connector工作流)的导出,然后使用Spark生成最终结果。