设置自定义编码器&处理参数化类型

时间:2015-09-09 19:22:30

标签: google-cloud-platform google-cloud-dataflow

我有两个与我在数据流管道中遇到的编码器问题有关的问题。

  • 如何为自定义数据类型设置编码器?该类只包含三个项目 - 两个双精度数和另一个参数化属性。我尝试用SerializableCoder注释类型,但我仍然得到错误" com.google.cloud.dataflow.sdk.coders.CannotProvideCoderException:无法根据类接口java.util.Set提供编码器:No CoderFactory已经在课堂上注册。" Set实际上包含参数化的自定义数据类型 - 所以我假设自定义数据类型是问题。我找不到足够的文档/示例正确的方法来做到这一点。请将我指向正确的地方。
  • 即使没有自定义数据类型,每当我尝试切换到参数化版本的Transform函数时,都会导致编码器错误。具体来说,在参数化的复杂变换中,ParDo使用参数化类型,但是当我在ParDo之后对结果PCollection应用Combine.PerKey时,会导致CoderNotFoundException。

关于这两个项目的任何帮助都会有所帮助,因为我现在有点困惑。

0 个答案:

没有答案