为多个数据集重用相同的配方

时间:2017-10-25 14:01:39

标签: google-cloud-dataprep

我想使用我用于其余数据集的一个数据集的相同配方。所有数据集的结构/标题都是相同的。有没有办法导入或重复使用相同的配方而不再执行所有步骤?

2 个答案:

答案 0 :(得分:1)

在流量视图页面中,您可以"交换"食谱的数据源。如果您想对不同的数据源使用不同的后续步骤,您可以制作副本"然后交换配方,然后交换复制配方的数据源。

有关详细信息,请参阅https://cloud.google.com/dataprep/docs/html/Flow-View-Page_57344806

答案 1 :(得分:1)

我刚刚开始使用DataPrep,但据我所知,您可以在开始时将所有资源都输入到配方中,然后在最后将它们分开并使用计划来运行每个源。

假设您有五个输入文件具有相同的结构但代表不同的销售市场。导入所有五个,如果没有derive列,则使用配方UNION一个具有静态值的新列。

KEEP所有这些都进入配方(因此核心配方收到一个文件)。

在配方结束时,为每个运行Category的输出添加一个新配方,仅保留该市场的数据。这将产生五个输出。

安排每个食谱,当计划运行时,您将获得五个不同的输出 - 每个输入一个。