Google云提供了使用Hadoop的连接器。(https://cloud.google.com/hadoop/google-cloud-storage-connector)
使用连接器,我从hdfs接收数据到谷歌云存储
离)
hadoop discp hdfs://${path} gs://${path}
但数据太大(16TB),接收速度仅为2mb / s
所以,我尝试更改设置distcp(map属性,带宽属性......)
然而速度是一样的。
如何在将数据从HDFS传输到Google云端存储时加快distcp的速度
答案 0 :(得分:3)
official documentation表示从本地群集向GCP传输数据的最佳选择之一是通过互联网使用VPN tunnel,甚至使用多个VPN tunnels来获得额外带宽。
建议的其他选项是使用Google的在线边缘点(PoPs)与您的网络之间的直接对等关系,或在{{{{{{{{{{{{{ 3}}