Question

我正在编写一个从Kafka 0.8读取的自定义DataFlow无界数据源。我想使用DirectPipelineRunner在本地运行它。但是，我得到以下stackstrace：

Exception in thread "main" java.lang.IllegalStateException: no evaluator registered for Read(KafkaDataflowSource)
        at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner$Evaluator.visitTransform(DirectPipelineRunner.java:700)
        at com.google.cloud.dataflow.sdk.runners.TransformTreeNode.visit(TransformTreeNode.java:219)
        at com.google.cloud.dataflow.sdk.runners.TransformTreeNode.visit(TransformTreeNode.java:215)
        at com.google.cloud.dataflow.sdk.runners.TransformHierarchy.visit(TransformHierarchy.java:102)
        at com.google.cloud.dataflow.sdk.Pipeline.traverseTopologically(Pipeline.java:252)
        at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner$Evaluator.run(DirectPipelineRunner.java:662)
        at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner.run(DirectPipelineRunner.java:374)
        at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner.run(DirectPipelineRunner.java:87)
        at com.google.cloud.dataflow.sdk.Pipeline.run(Pipeline.java:174)

这是有道理的，因为我没有在任何时候为自定义源注册评估器。

阅读https://github.com/GoogleCloudPlatform/DataflowJavaSDK，似乎只注册有界来源的评估者。为自定义无界源定义和注册求值程序的推荐方法是什么？

Answer 1

DirectPipelineRunner目前仅在有界输入上运行。我们正在积极努力消除这一限制，并希望尽快发布。

同时，您可以使用UnboundedSource轻松地将任何BoundedSource转换为withMaxNumRecords，以进行测试，如下例所示：

UnboundedSource<String> unboundedSource  = ...; // make a Kafka source
PCollection<String> boundedKafkaCollection =
    p.apply(Read.from(unboundedSource).withMaxNumRecords(10));

有关详细信息，请参阅this issue on GitHub。

另外，为Kafka连接器做出了一些贡献。您可能希望通过our GitHub repository与我们及其他贡献者进行互动。

在DirectPipelineRunner上使用自定义DataFlow无界源

1 个答案: