为批量生产的GCS文件创建Dataflow作业

时间:2017-06-16 18:38:48

标签: google-cloud-dataflow

给定大量新文件并非唯一匹配通配符字符串(即,在已上载和处理的相同文件夹中可能存在相同结构的其他文件)。 我想通过数据流作业处理每个文件。

我原本以为我会使用带云存储触发器的云功能触发每个新文件的数据流作业,但这些文件可能会以超过25个的突发显示,因此会超过25个并发作业配额,然后他们会开始失败。

我提出的最好的方法就是在pubsub中对它们进行排队,因为数据流中唯一的选择就是流出pubsub而这种情况经常不足以让它变得有价值,我在想写一个自定义数据流量源,我们可以安排在每小时左右读取一次处理文件。

有更好的选择吗?

0 个答案:

没有答案