我有数百万张图像存储在hadoop的hdfs中。我想建立这些图像的索引。如何获取这些图像的像素rgb值?我是hadoop的新手,hadoop中的图像格式与原始图像二进制格式不同。另一个问题是我应该使用hadoop中的sequencefile将巨大的图像打包到一个大文件中以提高效率吗?非常感谢。
答案 0 :(得分:0)
我可以部分回答这个问题。
另一个问题是我应该使用hadoop中的sequencefile将巨大的图像打包到一个大文件中以提高效率吗?
取决于单个文件的大小。如果单个文件非常大,那么合并它们可能不会有所帮助,反之亦然。
在SO上查看此query以获取更多详细信息。
答案 1 :(得分:0)
如果您有额外的存储空间,效率对您很重要,我肯定会使用SequenceFile。 Hadoop将为您处理拆分文件。我们遇到了一个案例,我们从图像文件中提取数据,类似于你正在做的事情。在我们的例子中,我们在发现系统中提取摄取元数据,以便可以在群集外搜索我们的图像文件。在这种情况下,因为效率对我们来说不是什么大问题,我们只是单独处理文件,确保它们不可分割。通过这种方式,其他系统可以通过http访问以获取源文件。