有没有办法强制hadoop作业查看下划线文件夹?

时间:2014-02-18 18:47:13

标签: java hadoop hdfs

我必须处理以“_”(下划线)开头的文件夹中的一堆文件。有没有办法可以强迫hadoop查看这些文件夹?我需要编写自己的FileInputFormat吗?

1 个答案:

答案 0 :(得分:1)

最简单的方法可能是使用例如FileSystem.globStatus自己构建输入文件列表,然后使用FileInputFormat.addInputPath手动将它们添加到作业中。 FileSystem.globStatus默认情况下不会过滤隐藏文件。