处理多种格式的数据文件(JSON,XML,CSV)

时间:2019-01-31 19:47:23

标签: pipeline apache-beam

如果数据以不同的文件格式存储在一个对象存储桶中。应该用一个管道处理吗?最佳做法是什么?

1 个答案:

答案 0 :(得分:0)

这将取决于如果您的需求包括从不同的格式加入/合并数据。

说,如果你有多个源,并且每个源的文件格式读取数据。然后你想要做一个扁平化合并您PCollections并做聚合,你必须有一个单独的管道。

您还可以选中[1],[2],[3]。

有是[4]示出了如何从BeamSQL文本文件转换为行。

[1] https://beam.apache.org/documentation/pipelines/design-your-pipeline/#multiple-sources [2] https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/schemas/Schema.java [3] https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/values/Row.java [4] https://github.com/apache/beam/blob/master/sdks/java/extensions/sql/src/main/java/org/apache/beam/sdk/extensions/sql/meta/provider/text/TextTable.java#L68