Apache Beam将PCollection初始化为空

时间:2017-12-03 22:42:10

标签: apache-spark apache-beam

我尝试将Spark ETL应用程序转换为Beam Application。

在Spark App中,我有一个空的RDD。

sc.emptyRDD()

其中scSparkContext

如果我完全理解,PCollection就像Spark RDD。那么,有一种方法可以创建一个空的PCollection

2 个答案:

答案 0 :(得分:1)

使用Create.empty()。由于PCollection是键入的并且需要编码器,因此您还需要指定编码器或类型描述符(即使集合为空),例如PCollection<String> emptyStrings = Create.of(StringUtf8Coder.of())

答案 1 :(得分:0)

对我有用的是:

PCollection<String> output = p.apply(Create.empty(StringUtf8Coder.of()));