Hadoop处理大量图像文件的最佳方式

时间:2014-09-17 09:25:32

标签: java python hadoop mapreduce

我已成功设法在Hadoop中以两种方式处理多个图像文件:

  1. 使用Java使用序列文件将图像拼接在一起。这需要一个指向所有文件位置的文本文件。
  2. 使用Python和Hadoop流将文件缓存到每个节点,使用tar.gz存档形式的-cacheArchive。
  3. 这两种方法对我来说都显得有些松懈。假设我有一百万个文件,我不想创建文本文件或压缩这么多文件。有没有办法我可以将我的映射器指向一个hdfs文件夹并让它在运行时读取该文件夹?我知道可以使用输入,但这是用于文本文件。或者我错过了什么?任何指针都非常受欢迎。

0 个答案:

没有答案