我需要读取750K记录的GCS文件。
对于每条记录,我需要将其与Google数据存储区中的相应记录进行比较。如果文件中的记录与数据存储区中的记录不匹配,则需要更新数据存储区记录并排队Taskqueue任务。
我停留的部分是启动此任务队列任务。
唯一的方法似乎是通过Google Cloud Task的HTTP api(https://cloud.google.com/tasks/docs/creating-http-target-tasks),但是从DoFn内部发出HTTP调用效率很低。
我考虑将pubsub用于该任务,因为数据流为此提供了适配器,但是您只能在流传输管道上使用pubsub。
答案 0 :(得分:0)
是的,Beam似乎没有用于Cloud Task的特殊IO连接器。因此,我想您只能从Beam DoFn内部发出HTTP请求。