Question

如何将Spark连接到Google的BigQuery？

我想可以使用Spark的JDBC功能与BigQuery进行通信。

但是我找到的唯一的JDBC驱动程序starschema已经过时了。

如果答案涉及JDBC，url参数应该是什么样的？

来自Spark Docs：

  rdd.toDF.write.format("jdbc").options(Map(
    "url" -> "jdbc:postgresql:dbserver",
    "dbtable" -> "schema.tablename"
  ))

Answer 1

您可以将BigQuery连接器用于Hadoop（也适用于Spark）： https://cloud.google.com/hadoop/bigquery-connector

如果您使用Google Cloud Dataproc（https://cloud.google.com/dataproc/）部署Spark群集，BigQuery连接器（以及GCS连接器）将自动部署并配置为您开箱即用。

但您也可以将连接器添加到现有的Spark部署中，无论它是在Google Cloud上运行还是在其他任何地方运行。如果您的群集未部署在Google Cloud上，则您必须自己配置身份验证（使用服务帐户“密钥文件”身份验证）。

[已添加]这个问题的答案（Dataproc + BigQuery examples - any available?）提供了一个使用Spark的BigQuery的例子。