Hadoop distcp with file list

时间:2016-08-01 13:07:15

标签: hadoop hortonworks-data-platform distcp s3distcp

我想使用distcp将文件列表(> 1K文件)复制到hdfs中。我已经在本地目录中存储了文件列表,现在我可以使用-f来复制所有文件吗?如果是,我必须在文件列表文件中维护什么格式?或者还有其他更好的方法吗?

1 个答案:

答案 0 :(得分:0)

如果您的用例是将数据从本地文件系统(例如Linux)复制到HDFS,则不必使用distcp。您可以简单地使用hdfs dfs -put命令。这是语法。

hdfs dfs -put /path/to/local/dir/* /path/on/hdfs/

e.g。

hdfs dfs -mkdir /user/hduser/destination-dir/

hdfs dfs -put /home/abc/mydir/* /user/hduser/destination-dir/

您已经创建了一个包含文件路径列表的文件,但根本不需要。当您将数据从一个群集复制到其他群集时,它主要用于(用于distcp)