Google Cloud Dataprep可以监控新文件的GCS路径吗?

时间:2017-11-29 06:03:21

标签: google-cloud-platform gcp google-cloud-dataprep

Google Cloud Dataprep似乎很棒,我们已经用它来手动导入静态数据集,但是我想多次执行它以便它可以使用上传到GCS路径的新文件。我可以看到你可以为Dataprep设置一个时间表,但我无法在导入设置中看到它如何处理新文件。

这可能吗?似乎是一个显而易见的需求 - 希望我已经错过了一些明显的东西。

2 个答案:

答案 0 :(得分:5)

您可以通过在数据集中单击文件夹左侧的+图标来添加GCS路径作为数据集(请参见屏幕截图)。为使用此数据集的流设置预定作业时,将在每个计划的作业运行中选取该目录中的所有文件(包括新文件)。

enter image description here

答案 1 :(得分:5)

对此进行进一步更新。自2018年1月23日我的问题new release of Dataprep包括能够独立于Dataprep重新运行数据流作业。

当您执行Dataprep作业时,它将生成一个Dataflow模板,您可以使用该模板在将来手动触发作业,并允许传入某些参数。

能够触发新文件的步骤(请注意这是Beta,因此Google可能会更改确切的过程):

  1. 创建您的流程并运行相关的流程/配方。手动迭代/重复,直到你的食谱如你所愿。当您运行愉快时,再次运行作业(应该是一个附加数据而不是替换的作业,因为您可能想要添加新内容)。取消选中"个人资料结果"可能是一个好主意。 (新功能)减少开销,因为这将是一个可重复的工作。
  2. 完成后,转到“作业详细信息”页面,然后单击导出结果按钮,您将看到指向数据流模板的链接。复制文字。请注意,数据流模板路径仅适用于2018年1月23日发布后执行的作业,因为它是一项新功能。
  3. 然后,您可以通过转到DataFlow并选择从模板创建作业,选择自定义模板并粘贴模板路径来查看如何触发数据流作业。在那里,您将看到可以提供的参数,例如GCS输入路径
  4. 编写从GCS写入触发的Google Cloud功能,并使用事件的详细信息按照上面的步骤(3)执行模板和文件路径。