我一直在回答this post和the documentation,以便在管道末端对我的数据执行动态窗口化写入。以下是我到目前为止的情况:
static void applyWindowedWrite(PCollection<String> stream) {
stream.apply(
FileIO.<String, String>writeDynamic()
.by(Event::getKey)
.via(TextIO.sink())
.to("gs://some_bucket/events/")
.withNaming(key -> defaultNaming(key, ".json")));
}
但NetBeans警告我最后一行语法错误:
FileNaming is not public in Write; cannot be accessed outside package
如何使defaultNaming
可用于我的管道,以便我可以将其用于动态写入。或者,如果那是不可能的,我应该做什么呢?
答案 0 :(得分:4)
发布我想出的以防其他人遇到此事。
我之前尝试使用writeDynamic()
的方式有三个问题。
FileNaming
描述为FileIO.Write
的内部类。 Beam 2.4.0将FileNaming
定义为public static interface
,使其在外部可用。defaultNaming
。而不是直接调用defaultNaming
- 正如示例文档中所调用的那样 - 它必须作为FileIO.Write.defaultNaming
调用,因为FileIO
是我实际导入的包。withDestinationCoder
。最终解决方案最终看起来像这样。
static void applyWindowedWrite(PCollection<String> stream) {
stream.apply(FileIO.<String, String>writeDynamic()
.by(Event::getKey)
.via(TextIO.sink())
.to("gs://some_bucket/events/")
.withDestinationCoder(StringUtf8Coder.of())
.withNumShards(1)
.withNaming(key -> FileIO.Write.defaultNaming(key, ".json")));
}
其中Event::getKey
是在具有签名public static String getKey(String event)
的同一个包中定义的静态函数。
执行窗口写入,每个窗口写入一个文件(由.withNumShards(1)
方法定义)。这假设窗口已在上一步中定义。在写入之前不需要GroupByKey
,因为只要明确定义了分片数,它就会在写入过程中完成。有关详细信息,请参阅FileIO documentation&#34;撰写文件 - &gt;每个窗格生成多少个分片&#34;。