如果数据以不同的文件格式存储在一个对象存储桶中。应该用一个管道处理吗?最佳做法是什么?
答案 0 :(得分:0)
这将取决于如果您的需求包括从不同的格式加入/合并数据。
说,如果你有多个源,并且每个源的文件格式读取数据。然后你想要做一个扁平化合并您PCollections并做聚合,你必须有一个单独的管道。
您还可以选中[1],[2],[3]。
有是[4]示出了如何从BeamSQL文本文件转换为行。
[1] https://beam.apache.org/documentation/pipelines/design-your-pipeline/#multiple-sources [2] https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/schemas/Schema.java [3] https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/values/Row.java [4] https://github.com/apache/beam/blob/master/sdks/java/extensions/sql/src/main/java/org/apache/beam/sdk/extensions/sql/meta/provider/text/TextTable.java#L68