Cloud Dataflow Streaming连续无法插入

时间:2017-02-08 18:27:10

标签: google-cloud-dataflow

我的数据流管道功能如下:

Read from Pubsub
Transform data into rows
Write the rows to bigquery

开,传递的数据无法插入。没关系,我知道这次失败的原因。但是数据流不断尝试一遍又一遍地插入这些数据。我想限制重试次数,因为它会使用无关信息填充工作日志。因此,当重复出现相同的错误时,很难排除问题所在。

在本地运行管道时,我得到:

no evaluator registered for Read(PubsubSource)

我希望能够在本地测试管道。但似乎数据流似乎不支持PubSub这个选项。

要清除我留下的错误,除了取消管道并在Google Cloud上运行新作业之外别无选择。哪个花费时间&钱。有没有办法限制错误?有没有办法在本地测试我的管道?是否有更好的方法来调试管道?

Dataflow UI

职位编号:2017-02-08_09_18_15-3168619427405502955

1 个答案:

答案 0 :(得分:3)

要使用无界数据集在本地运行管道,请在@ Pablo的建议中使用InProcessPipelineRunner

        dataflowOptions.setRunner(InProcessPipelineRunner.class);

在本地运行程序使我能够处理异常错误并快速优化我的工作流程。