应用错误收集

时间：2016-04-05 09:26:11

标签： python google-app-engine apache-spark google-bigquery pyspark

我想从Spark将数据加载到Databricks（Google BigQuery}上。我注意到Databricks为Amazon S3提供了很多支持，但没有为Google提供支持。

从Google BigQuery将数据加载到Spark（在Databricks上）的最佳方法是什么？ BigQuery connector允许我这样做，还是仅对Google云端存储上托管的文件有效？

答案 0 :(得分：1)

BigQuery Connector是一个使用公共BigQuery API的客户端库：它将BigQuery导出作业运行到Google云端存储，并利用文件创建顺序尽早启动Hadoop处理以提高整体吞吐量。

此代码应该适用于您找到Hadoop群集的任何地方。

也就是说，如果您正在运行大数据，那么您可能会发现网络带宽吞吐量存在问题（您与Google的网络连接有多好？），并且由于您正在从Google的网络中读取数据，因此GCS network egress costs将适用。