我正在从BigQuery读取数据到数据中心火花集群。如果我的案例中的BigQuery表中的数据最初是从GCS加载的,那么将数据从GCS直接读入spark集群是否更好,因为dataproc的BigQuery连接器(newAPIHadoopRDD)首先将数据下载到Google Cloud Storage存储桶?这两种方法之间有什么利弊吗?
答案 0 :(得分:0)
使用BigQuery连接器最适合您希望尽可能抽象出GCS导出/导入的情况,并且不希望显式管理GCS内的数据集。
如果您已经拥有GCS内部的数据集,则最好直接使用GCS数据集以避免其他导出步骤,以及能够直接使用更简单的文件系统接口。缺点是维护数据集的两个副本(一个在GCS中,一个在BQ中)并保持同步是更昂贵的。但是,如果尺寸不是过高而且数据不经常更新,您可能会发现最简单的方法是保留GCS数据集以便直接访问。