应用错误收集

我已成功设法在Hadoop中以两种方式处理多个图像文件：

这两种方法对我来说都显得有些松懈。假设我有一百万个文件，我不想创建文本文件或压缩这么多文件。有没有办法我可以将我的映射器指向一个hdfs文件夹并让它在运行时读取该文件夹？我知道可以使用输入，但这是用于文本文件。或者我错过了什么？任何指针都非常受欢迎。