如何在放入新文件时通过Dataflow从GCS存储桶中提取数据?

时间:2017-05-04 14:44:01

标签: google-cloud-storage google-cloud-dataflow gcp

我有一个用例,我需要在谷歌云存储桶中通过数据流以存储桶中的新文件形式提供数据。

新数据(文件)可用或添加到存储桶后,如何触发Dataflow作业的执行?

1 个答案:

答案 0 :(得分:2)

如果您的管道是用Java编写的,那么您可以使用Cloud FunctionsDataflow templating

我假设您正在使用1.x SDK(也可以使用2.x)

  1. 编写您的管道并指定“TemplatingDataflowPipelineRunner”作为跑步者
  2. 编写一个云功能,设置为侦听并响应到达您的存储桶的新对象(在本例中为CSV文件)。
  3. Cloud Function启动Dataflow管道,并将新文件的名称作为参数传递给它。
  4. 有关如何构建此管道的演练,请参阅here完全披露:我为Shine工作。