从HDFS读取一个简单的Avro文件

时间:2012-07-24 13:36:55

标签: java io avro

我正在尝试对存储在HDFS中的Avro文件进行简单读取。我发现当它在本地文件系统上时如何读取它....

FileReader reader = DataFileReader.openReader(new File(filename), new GenericDatumReader());

for (GenericRecord datum : fileReader) {
   String value = datum.get(1).toString();
   System.out.println("value = " value);
}

reader.close();

然而,我的文件是HDFS。我不能给openReader一个Path或一个FSDataInputStream。如何在HDFS中读取Avro文件?

编辑:我通过创建实现SeekableInput的自定义类(SeekableHadoopInput)来实现此目的。我在github上“偷走”了这个“Ganglion”。似乎还有一个Hadoop / Avro集成路径。

由于

1 个答案:

答案 0 :(得分:22)

FsInput类(在avro-mapred子模块中,因为它依赖于Hadoop)可以做到这一点。它提供了Avro数据文件所需的可搜索输入流。

Path path = new Path("/path/on/hdfs");
Configuration config = new Configuration(); // make this your Hadoop env config
SeekableInput input = new FsInput(path, config);
DatumReader<GenericRecord> reader = new GenericDatumReader<GenericRecord>();
FileReader<GenericRecord> fileReader = DataFileReader.openReader(input, reader);

for (GenericRecord datum : fileReader) {
    System.out.println("value = " + datum);
}

fileReader.close(); // also closes underlying FsInput