我首先将所有图片打包成Hadoop sequenceFile:
FSDataInputStream in = null;
in = fs.open(new Path(uri)); //uri is the image location in HDFS
byte buffer[] = new byte[in.available()];
in.read(buffer);
context.write(imageID, new BytesWritable(buffer));
然后我想从减少器中的Sequence文件中获取原始图像:
BufferedImage imag;
imag = ImageIO.read(new ByteArrayInputStream(value.getBytes()));
但由于我有这个错误,图像没有得到妥善处理:
Error: javax.imageio.IIOException: Error reading PNG image data
Caused by: java.io.EOFException: Unexpected end of ZLIB input stream
我的问题是如何从hadoop的序列文件中获取原始图像?
答案 0 :(得分:0)
问题是我使用错误的方式来读取流。这是正确的方法。:
import org.apache.commons.io.IOUtils;
Configuration confHadoop = new Configuration();
FileSystem fs = FileSystem.get(confHadoop);
Path file = new Path(fs.getUri().toString() + "/" + fileName);
in = fs.open(file);
byte[] buffer = IOUtils.toByteArray(in);
然后可以通过new BytesWritable(buffer)
将缓冲区写入sequenceFile。
从sequenceFile读取时也一样。