通过数据流管道将任务放入Google TaskQueue / Cloud Tasks中

时间:2019-06-17 21:06:04

标签: google-cloud-dataflow task-queue

我需要读取750K记录的GCS文件。

对于每条记录,我需要将其与Google数据存储区中的相应记录进行比较。如果文件中的记录与数据存储区中的记录不匹配,则需要更新数据存储区记录并排队Taskqueue任务。

我停留的部分是启动此任务队列任务。

唯一的方法似乎是通过Google Cloud Task的HTTP api(https://cloud.google.com/tasks/docs/creating-http-target-tasks),但是从DoFn内部发出HTTP调用效率很低。

我考虑将pubsub用于该任务,因为数据流为此提供了适配器,但是您只能在流传输管道上使用pubsub。

1 个答案:

答案 0 :(得分:0)

是的,Beam似乎没有用于Cloud Task的特殊IO连接器。因此,我想您只能从Beam DoFn内部发出HTTP请求。