我正在使用以下命令从一个hadoop集群(版本0.20.2)到另一个hadoop集群(版本2.2.0)执行distcp。
hadoop distcp -update -skipcrccheck "hftp://x.x.x.x:50070//hive/warehouse//staging_eventlog_arpu_comma" "hdfs://y.y.y.y:9000//hive/warehouse/staging_eventlog_arpu_comma"
所以带宽利用率应该是目的地的来源。 但是,与源到目的地相比,从目的地到源的网络利用率更高。
hadoop distcp -bandwidth指定:
**Each map will be restricted to consume only the specified bandwidth. This is not always exact. The map throttles back its bandwidth consumption during a copy, such that the net bandwidth used tends towards the specified value.**
那么它又扼杀了什么呢?