如何将Spark连接到Google的BigQuery?
我想可以使用Spark的JDBC功能与BigQuery进行通信。
但是我找到的唯一的JDBC驱动程序starschema已经过时了。
如果答案涉及JDBC,url参数应该是什么样的?
来自Spark Docs:
rdd.toDF.write.format("jdbc").options(Map(
"url" -> "jdbc:postgresql:dbserver",
"dbtable" -> "schema.tablename"
))
答案 0 :(得分:2)
您可以将BigQuery连接器用于Hadoop(也适用于Spark): https://cloud.google.com/hadoop/bigquery-connector
如果您使用Google Cloud Dataproc(https://cloud.google.com/dataproc/)部署Spark群集,BigQuery连接器(以及GCS连接器)将自动部署并配置为您开箱即用。
但您也可以将连接器添加到现有的Spark部署中,无论它是在Google Cloud上运行还是在其他任何地方运行。如果您的群集未部署在Google Cloud上,则您必须自己配置身份验证(使用服务帐户“密钥文件”身份验证)。
[已添加]这个问题的答案(Dataproc + BigQuery examples - any available?)提供了一个使用Spark的BigQuery的例子。