在Apache Crunch中编写Parquet文件

时间:2017-03-01 07:06:17

标签: mapreduce hadoop2 parquet apache-crunch

我是apache crunch的新手,在apache crunch中寻找阅读和编写Parquet文件。 我遵循了文档和API,但没有采用直接的方法/方法来做同样的事情。

PCollection<String> pipeLine = MemPipeline.collectionOf("Pineapple", "Banana", "Orange");

PCollection<Integer> b = pipeLine.parallelDo(new DoFn<String, Integer>() {

   private static final long serialVersionUID = 1L;

   @Override
   public void process(String input, Emitter<Integer> emitter) {
        emitter.emit(input.length());
    }
  }, ints());

  b.write(new AvroParquetFileTarget("D:\\Tutorials\\CCP_WorkSpace\\Crunch\\resources\\output"));

提前致谢。

1 个答案:

答案 0 :(得分:1)

如果你有一个avro架构和来自该avro的编译类,它包含与镶木地板数据相同的结构,你可以通过以下方式阅读它

Target parquetFileTarget = new AvroParquetFileTarget(outputPath);
mypcollection.write(avroParquetFileSource);

并写这样的镶木地板

{{1}}