将BigQuery与Spark集成

时间:2015-10-03 00:27:33

标签: scala apache-spark google-bigquery

如何将Spark连接到Google的BigQuery?

我想可以使用Spark的JDBC功能与BigQuery进行通信。

但是我找到的唯一的JDBC驱动程序starschema已经过时了。

如果答案涉及JDBC,url参数应该是什么样的?

来自Spark Docs

  rdd.toDF.write.format("jdbc").options(Map(
    "url" -> "jdbc:postgresql:dbserver",
    "dbtable" -> "schema.tablename"
  ))

1 个答案:

答案 0 :(得分:2)

您可以将BigQuery连接器用于Hadoop(也适用于Spark): https://cloud.google.com/hadoop/bigquery-connector

如果您使用Google Cloud Dataproc(https://cloud.google.com/dataproc/)部署Spark群集,BigQuery连接器(以及GCS连接器)将自动部署并配置为您开箱即用。

但您也可以将连接器添加到现有的Spark部署中,无论它是在Google Cloud上运行还是在其他任何地方运行。如果您的群集未部署在Google Cloud上,则您必须自己配置身份验证(使用服务帐户“密钥文件”身份验证)。

[已添加]这个问题的答案(Dataproc + BigQuery examples - any available?)提供了一个使用Spark的BigQuery的例子。