应用错误收集

将BigQuery和/或云存储GCS中的数据读入Dataproc

时间：2017-09-29 16:55:53

标签： google-bigquery google-cloud-storage google-cloud-dataproc

我正在从BigQuery读取数据到数据中心火花集群。如果我的案例中的BigQuery表中的数据最初是从GCS加载的，那么将数据从GCS直接读入spark集群是否更好，因为dataproc的BigQuery连接器（newAPIHadoopRDD）首先将数据下载到Google Cloud Storage存储桶？这两种方法之间有什么利弊吗？

1 个答案:

答案 0 :(得分：0)

使用BigQuery连接器最适合您希望尽可能抽象出GCS导出/导入的情况，并且不希望显式管理GCS内的数据集。

如果您已经拥有GCS内部的数据集，则最好直接使用GCS数据集以避免其他导出步骤，以及能够直接使用更简单的文件系统接口。缺点是维护数据集的两个副本（一个在GCS中，一个在BQ中）并保持同步是更昂贵的。但是，如果尺寸不是过高而且数据不经常更新，您可能会发现最简单的方法是保留GCS数据集以便直接访问。