如何使用不同的模式从Avro文件构建Dataflow集合?

时间:2015-01-15 05:55:00

标签: google-cloud-dataflow

当每个文件的架构可能是N个不同架构之一时,如何从Avro文件构造PCollection?

我们只想指定一个匹配所有avro文件的glob路径,并且我们想使用单个Avro源而不是为每个文件构建一个新的Avro源?

1 个答案:

答案 0 :(得分:1)

执行此操作的一种简单方法是使用Avro源并指定一个模式,该模式是所有此类文件的并集。这将产生一个PCollection,其中记录是GenericReccords,其模式是所有不同模式的并集。然后,您可以应用ParDo操作,以便将它们转换为您想要的任何表示形式。

这里是complete example