将文件加载到hadoop

时间:2015-09-02 09:27:12

标签: hadoop hdfs

我有一个包含本地文件系统数据的目录结构。我需要将它复制到Hadoop集群。

目前我找到了三种方法:

  • 使用" hdfs dfs -put"命令
  • 使用hdfs nfs gateway
  • 通过nfs在每个datanode上安装我的本地目录并使用distcp

我错过了其他任何工具吗?哪一个是制作副本的最快方式?

1 个答案:

答案 0 :(得分:0)

我认为hdfs dfs -puthdfs dfs -copyFromLocal是最简单的做法。

如果您有大量数据(许多文件),则可以通过编程方式复制它们。

FileSystem fs = FileSystem.get(conf);
fs.copyFromLocalFile(new Path("/home/me/localdirectory/"),   new Path("/me/hadoop/hdfsdir"));