将文件从Google Cloud Storage加载到内部部署Hadoop集群

时间:2018-06-15 07:35:22

标签: hadoop google-cloud-platform google-cloud-storage

我正在尝试将Google云端存储文件加载到内部部署Hadoop集群。我开发了一个解决方法(程序)来下载本地EdgeNode和distcp上的文件到Hadoop。但这似乎是双向的解决方法,并没有太多令人印象深刻。我浏览了几个网站(links1link2),这些网站总结了使用Hadoop Google云端存储连接器进行此类流程并需要基础架构级别配置,这在所有情况下均无法实现。

有没有办法使用Python或Java以编程方式将文件直接从云存储复制到Hadoop。

1 个答案:

答案 0 :(得分:0)

要以编程方式执行此操作,您可以直接使用Cloud Storage API client libraries从Cloud Storage中下载文件并将其保存到HDFS。

但是install Cloud Storage connector在内部Hadoop集群上使用DistCp将文件从Cloud Storage下载到HDFS会更加简单和容易。