群集模式下的Sqoop并行性?

时间:2018-05-31 01:23:41

标签: sqoop bandwidth mapper

任何人都可以帮我理解这些东西吗?我完全理解当我运行Sqoop脚本时,默认的映射器将是4并且它并行运行。因此,Sqoop在主键上创建了4组SQL脚本,从而产生了四个数据块。

我不明白的是这些映射器是否在所有节点上运行?因为如果每个映射器在每个节点上运行,那么鉴于所有节点带宽都可用,下载速度会快得多。

或者,或者,所有4个映射器都保持在同一个节点上,这样并行效应只会出现在CPU(超线程的东西)而不是带宽上,因此只会提高下载速度(如果有的话)每个映射器都不消耗最大带宽。

我真的很困惑。任何输入都表示赞赏。没有其他人从我所说的内容中提出这个问题。

0 个答案:

没有答案