我正在使用Google Dataproc群集来针对Bigtable运行Spark M / R作业。 数据通过网络从Bigtable发送到Dataproc集群以执行映射阶段,或者映射阶段是否在Bigtable集群上物理运行?
答案 0 :(得分:1)
所有计算都将在Dataproc上运行,并且需要通过网络将执行该计算所需的任何数据传输到Dataproc以使其正常工作。
有一点需要注意的是,如果您在扫描中设置了过滤器,那么Bigtable服务将执行该过滤,然后再将数据发送回在Dataproc上运行的作业。