标签: java python hadoop mapreduce
我已成功设法在Hadoop中以两种方式处理多个图像文件:
这两种方法对我来说都显得有些松懈。假设我有一百万个文件,我不想创建文本文件或压缩这么多文件。有没有办法我可以将我的映射器指向一个hdfs文件夹并让它在运行时读取该文件夹?我知道可以使用输入,但这是用于文本文件。或者我错过了什么?任何指针都非常受欢迎。