将Google BigQuery中的数据加载到Spark中(在Databricks上)

时间:2016-04-05 09:26:11

标签: python google-app-engine apache-spark google-bigquery pyspark

我想从Spark将数据加载到DatabricksGoogle BigQuery}上。我注意到Databricks为Amazon S3提供了很多支持,但没有为Google提供支持。

从Google BigQuery将数据加载到Spark(在Databricks上)的最佳方法是什么? BigQuery connector允许我这样做,还是仅对Google云端存储上托管的文件有效?

1 个答案:

答案 0 :(得分:1)

BigQuery Connector是一个使用公共BigQuery API的客户端库:它将BigQuery导出作业运行到Google云端存储,并利用文件创建顺序尽早启动Hadoop处理以提高整体吞吐量。

此代码应该适用于您找到Hadoop群集的任何地方。

也就是说,如果您正在运行大数据,那么您可能会发现网络带宽吞吐量存在问题(您与Google的网络连接有多好?),并且由于您正在从Google的网络中读取数据,因此GCS network egress costs将适用。