当每个文件的架构可能是N个不同架构之一时,如何从Avro文件构造PCollection?
我们只想指定一个匹配所有avro文件的glob路径,并且我们想使用单个Avro源而不是为每个文件构建一个新的Avro源?
答案 0 :(得分:1)
执行此操作的一种简单方法是使用Avro源并指定一个模式,该模式是所有此类文件的并集。这将产生一个PCollection,其中记录是GenericReccords,其模式是所有不同模式的并集。然后,您可以应用ParDo操作,以便将它们转换为您想要的任何表示形式。