Google Cloud Dataprep似乎很棒,我们已经用它来手动导入静态数据集,但是我想多次执行它以便它可以使用上传到GCS路径的新文件。我可以看到你可以为Dataprep设置一个时间表,但我无法在导入设置中看到它如何处理新文件。
这可能吗?似乎是一个显而易见的需求 - 希望我已经错过了一些明显的东西。
答案 0 :(得分:5)
答案 1 :(得分:5)
对此进行进一步更新。自2018年1月23日我的问题new release of Dataprep包括能够独立于Dataprep重新运行数据流作业。
当您执行Dataprep作业时,它将生成一个Dataflow模板,您可以使用该模板在将来手动触发作业,并允许传入某些参数。
能够触发新文件的步骤(请注意这是Beta,因此Google可能会更改确切的过程):