有没有一种方法可以将PubSubIO读取的内容转换为UnboundedSource源

时间:2019-09-06 02:38:25

标签: google-cloud-dataflow apache-beam google-cloud-pubsub

我想使用PubSub subscription作为有界源,以使一直运行的流水线管道的成本最小化。在Batch Pipeline with Unbounded Source之前曾提出类似的问题,但没有解决方案。我碰到了这个答案What PipelineRunners,说我们可以将UnboundedSource变成BoundedSource以便使用withMaxNumRecords进行测试。是否可以在此处使用PubSubIO作为输入或是否存在将PubSubIO读为unboundedSource的方法?

UnboundedSource<String> unboundedSource  = .; // How to Use PubSub here?
PCollection<String> boundedPubsubCollection =
    p.apply(Read.from(unboundedSource).withMaxNumRecords(10));

1 个答案:

答案 0 :(得分:0)

PubSubIO目前尚不能很好地支持它,对于“ Beam模型”来说有点奇怪。一些选项:

  1. 您是否尝试过启动管道并定期排干管道?
  2. 如果这不起作用,则应在Beam邮件列表或issue tracker中发布功能请求。