如何在将数据从Hadoop传输到Google云端存储时加快distcp速度

时间:2017-03-23 11:16:33

标签: hadoop hdfs google-cloud-storage google-cloud-dataproc google-hadoop

Google云提供了使用Hadoop的连接器。(https://cloud.google.com/hadoop/google-cloud-storage-connector

使用连接器,我从hdfs接收数据到谷歌云存储

离)

hadoop discp hdfs://${path} gs://${path}

但数据太大(16TB),接收速度仅为2mb / s

所以,我尝试更改设置distcp(map属性,带宽属性......)

然而速度是一样的。

如何在将数据从HDFS传输到Google云端存储时加快distcp的速度

1 个答案:

答案 0 :(得分:3)

official documentation表示从本地群集向GCP传输数据的最佳选择之一是通过互联网使用VPN tunnel,甚至使用多个VPN tunnels来获得额外带宽。

建议的其他选项是使用Google的在线边缘点(PoPs)与您的网络之间的直接对等关系,或在{{{{{{{{{{{{{ 3}}