如何使用GC Dataflow将多个GCS文件(3NF表卸载)展平为一个GCS文件?

时间:2015-12-10 14:52:51

标签: google-cloud-dataflow

我有多个文件是从加载到Google云端存储中的3NF模型卸载的表。加入/展平到单个文件以供将来与BigQuery一起使用的建议步骤是什么?

您能指出一个与我的用例相匹配的最佳示例吗?

首先将单个文件加载到BigQuery中对我有好处吗?

1 个答案:

答案 0 :(得分:1)

Dataflow使用源将文件转换为记录集合。目前还没有内置的3NF文件来源。

您可以创建自己的Custom Source来处理文件。

由于您的数据位于文件中,因此您可以使用FileBasedSource作为源的基类。

一旦编写了源代码,就可以构建一个处理记录的管道,然后使用BigQuery Sink

将它们写入BigQuery