我在互联网上有一个文件夹,想把它复制到hadoop集群。这些文件应该通过HTTP协议下载。我可以创建一个java应用程序,它可以遍历文件夹获取文件夹结构并在HDFS上创建相应的结构,然后将文件逐个下载到我的机器上,然后将其上传到服务器。有没有更简洁的方法来完成这样的任务而无需在本地下载?
我试过这样的命令
wget -r --no-parent https://example.org/other/2009/2009-01/ -O - |hadoop fs -put - /user/beni/deleteme3/
但它没有用