如何将我的数据从本地HDFS安全地传输到Google云端存储?

时间:2017-09-19 00:10:19

标签: hadoop hdfs cloud google-cloud-dataproc

我在本地HDFS安装中有大量数据。我想将其中的一部分移至Google Cloud(云端存储),但我有一些顾虑:

  • 我如何实际移动数据?
  • 我担心将其移到公共互联网上

将数据从我的HDFS存储安全地移动到云存储的最佳方法是什么?

1 个答案:

答案 0 :(得分:2)

要将数据从内部部署Hadoop群集移动到Google云端存储,您应该使用Google Cloud Storage connector for Hadoop。您可以按照install directions在任何群集中安装连接器。请注意,Google Cloud Dataproc群集默认安装了连接器。

安装连接器后,您可以使用DistCp 将数据从HDFS移动到云存储。这将通过(公共)互联网传输数据,除非您使用Google Cloud进行特殊的互连设置。为此,您可以使用squid proxy并配置云存储连接器to use it