标签: java hadoop hdfs
我必须处理以“_”(下划线)开头的文件夹中的一堆文件。有没有办法可以强迫hadoop查看这些文件夹?我需要编写自己的FileInputFormat吗?
答案 0 :(得分:1)
最简单的方法可能是使用例如FileSystem.globStatus自己构建输入文件列表,然后使用FileInputFormat.addInputPath手动将它们添加到作业中。 FileSystem.globStatus默认情况下不会过滤隐藏文件。
FileSystem.globStatus
FileInputFormat.addInputPath