在hadoop mapreduce作业中使用多个本地文件夹作为源

时间:2012-05-16 06:30:04

标签: hadoop mapreduce

我有多个本地文件夹中的数据,即/ usr / bigboss / data1,/ usr / bigboss / data2以及更多文件夹。我想使用所有这些文件夹作为MapReduce命令的输入源,并将结果存储在HDFS中。我找不到使用Hadoop Grep示例的工作命令。

1 个答案:

答案 0 :(得分:1)

数据需要驻留在HDFS中,以便您使用grep示例处理它。您可以使用-put FsShell命令将文件夹上载到HDFS:

hadoop fs -mkdir bigboss
hadoop fs -put /usr/bigboss/data* bigboss

这将在当前用户HDFS目录中创建一个文件夹,并将每个数据目录上传到它

现在您应该可以在数据

上运行grep示例了