我的数据流管道功能如下:
Read from Pubsub
Transform data into rows
Write the rows to bigquery
开,传递的数据无法插入。没关系,我知道这次失败的原因。但是数据流不断尝试一遍又一遍地插入这些数据。我想限制重试次数,因为它会使用无关信息填充工作日志。因此,当重复出现相同的错误时,很难排除问题所在。
在本地运行管道时,我得到:
no evaluator registered for Read(PubsubSource)
我希望能够在本地测试管道。但似乎数据流似乎不支持PubSub这个选项。
要清除我留下的错误,除了取消管道并在Google Cloud上运行新作业之外别无选择。哪个花费时间&钱。有没有办法限制错误?有没有办法在本地测试我的管道?是否有更好的方法来调试管道?
职位编号:2017-02-08_09_18_15-3168619427405502955
答案 0 :(得分:3)
要使用无界数据集在本地运行管道,请在@ Pablo的建议中使用InProcessPipelineRunner
。
dataflowOptions.setRunner(InProcessPipelineRunner.class);
在本地运行程序使我能够处理异常错误并快速优化我的工作流程。