我在本地HDFS安装中有大量数据。我想将其中的一部分移至Google Cloud(云端存储),但我有一些顾虑:
将数据从我的HDFS存储安全地移动到云存储的最佳方法是什么?
答案 0 :(得分:2)
要将数据从内部部署Hadoop群集移动到Google云端存储,您应该使用Google Cloud Storage connector for Hadoop。您可以按照install directions在任何群集中安装连接器。请注意,Google Cloud Dataproc群集默认安装了连接器。
安装连接器后,您可以使用DistCp 将数据从HDFS移动到云存储。这将通过(公共)互联网传输数据,除非您使用Google Cloud进行特殊的互连设置。为此,您可以使用squid proxy并配置云存储连接器to use it。