如何从互联网下载文件夹到hdfs?

时间:2015-05-15 14:44:03

标签: hadoop hdfs

我在互联网上有一个文件夹,想把它复制到hadoop集群。这些文件应该通过HTTP协议下载。我可以创建一个java应用程序,它可以遍历文件夹获取文件夹结构并在HDFS上创建相应的结构,然后将文件逐个下载到我的机器上,然后将其上传到服务器。有没有更简洁的方法来完成这样的任务而无需在本地下载?

我试过这样的命令

wget -r --no-parent https://example.org/other/2009/2009-01/ -O - |hadoop fs -put -  /user/beni/deleteme3/

但它没有用

0 个答案:

没有答案