将TupleTag传递给DoFn方法

时间:2017-10-10 20:41:39

标签: java google-cloud-dataflow apache-beam

我正在尝试使用DoFn方法的两个输出,遵循Apache Beam programming guide

的示例

基本上在示例中你传递一个TupleTag,然后指定输出的位置,这对我有用的问题是我在ParDo中调用了一个外部方法,并且不知道如何传递这个TupleTag,这是我的代码:

PCollectionTuple processedData = pubEv
  .apply("Processing", ParDo.of(new HandleEv())
      .withOutputTags(mainData, TupleTagList.of(failedData)));

HandleEv方法:

static class HandleEv extends DoFn<String, String> {
    @ProcessElement
    public void processElement(ProcessContext c) throws Exception {
      c.output("test")
      c.output(failedData,"failed")
    }
}

我得到的错误是cannot find symbol因为来自HandleEv无法访问failedData,我试图在课程开始时声明failedData,但两者都没有。

非常感谢

1 个答案:

答案 0 :(得分:4)

您可以像将值传递给任何其他对象一样执行此操作 -  将其作为参数传递给HandleEv的构造函数并将其存储在字段中:

static class HandleEv extends DoFn<String, String> {
  private final TupleTag<String> failedData;
  public HandleEv(TupleTag<String> failedData) {
    this.failedData = failedData;
  }

  @ProcessElement
  public void processElement(ProcessContext c) throws Exception {
    c.output("test")
    c.output(failedData,"failed")
  }
}

然后像这样使用它:

PCollectionTuple processedData = pubEv
  .apply("Processing", ParDo.of(new HandleEv(failedData))
      .withOutputTags(mainData, TupleTagList.of(failedData)));