我想从Spark将数据加载到Databricks(Google BigQuery}上。我注意到Databricks为Amazon S3提供了很多支持,但没有为Google提供支持。
从Google BigQuery将数据加载到Spark(在Databricks上)的最佳方法是什么? BigQuery connector允许我这样做,还是仅对Google云端存储上托管的文件有效?
答案 0 :(得分:1)
BigQuery Connector是一个使用公共BigQuery API的客户端库:它将BigQuery导出作业运行到Google云端存储,并利用文件创建顺序尽早启动Hadoop处理以提高整体吞吐量。
此代码应该适用于您找到Hadoop群集的任何地方。
也就是说,如果您正在运行大数据,那么您可能会发现网络带宽吞吐量存在问题(您与Google的网络连接有多好?),并且由于您正在从Google的网络中读取数据,因此GCS network egress costs将适用。