从TextIO到BigQuery使用无限制的PCollection时,数据会滞留在BigQueryIO内部的Reshuffle / GroupByKey中

时间:2018-11-12 16:50:49

标签: google-bigquery apache-beam

我正在使用TextIO从Cloud Storage中读取内容。因为我想让作业连续运行,所以我使用了watchForNewFiles。

出于完整性考虑,如果我使用有界的PCollections(批处理模式中没有watchForNewFiles和BigQueryIO),则读取的数据可以正常工作,因此没有数据问题。

我有p.run()。waitUntilFinish();在我的代码中,因此管道在运行。而且它不会给出任何错误。

Apache Beam版本为2.8.0

extension UIActivityIndicatorView {
    var isLoading:Bool {
        get {
            return isAnimating
        } set {
            if newValue {
                self.startAnimating()
            } else {
                self.stopAnimating()
            }
        }
    }
}

这非常正常,可以在文件可用时立即读取。 PCollection是无边界的,并且包含这些文件中的文本行。

进行一些转换后

PCollection<String> stream =
        p.apply("Read File", TextIO
                .read()
                .from(options.getInput())
                .watchForNewFiles(
                        Duration.standardMinutes(1),
                        Watch.Growth.afterTimeSinceNewOutput(Duration.standardHours(1))
                )
                .withCompression(Compression.AUTO));

ParseCSV步骤通过outputWithTimestamp将时间戳添加到其接收者。

我最终得到了准备好流向BigQuery的TableRows的PCollection。 为此,我使用

PCollection<List<String>> lines = stream.apply("Parse CSV",
        ParDo.of(new ParseCSV())
);

PCollection<TableRow> rows = lines.apply("Convert to BQ",
        ParDo.of(new BigQueryConverter(schema))
);

这永远不会将数据写入BigQuery。如果我看一下UI,就会发现BigQueryIO确实

  • ShardTableWrites
  • TagWithUniqueId
  • 改组
    • Window.into
    • GroupByKey

数据进入并离开前两个步骤。但是绝对不要改组。这只会读取数据,而不会继续传递数据。 Reshuffle内部的导致GroupByKey的步骤。

由于集合是无界的,因此我尝试使用

配置窗口
WriteResult result = rows.apply("WriteToBigQuery",
        BigQueryIO.
                <TableRow>write()
                .withFormatFunction(input -> input)
                .withSchema(bqSchema)
                .withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_APPEND)
                .withFailedInsertRetryPolicy(InsertRetryPolicy.retryTransientErrors())
                .withExtendedErrorInfo()
                .to(options.getOutput())

);

可以强制执行GroupByKey的所有操作在10秒后释放窗口。但事实并非如此。

lines = lines.apply(Window.configure()
        .<List<String>>into(FixedWindows
                .of(Duration.standardSeconds(10))
        )
);

在处理时间上添加特定触发器也无济于事。 有什么线索吗?预先感谢!

1 个答案:

答案 0 :(得分:1)

一个解决方法可能是(对我有用)为每个元素确定一个新键,并强制数据流使用Reshuffle或GroupByKey解耦转换。

streams.apply(WithKeys.of(input -> 1)).setCoder(KvCoder.of(VarIntCoder.of(), StringUtf8Coder.of()))
       .apply(Reshuffle.of())
       .apply(MapElements.via(new SimpleFunction<KV<Integer, String>, String>() {
           @Override
           public String apply(KV<Integer, String> input) {
               return input.getValue();
           }
       }))
       .apply("convertToTableRow", ...)
       .apply("WriteToBigQuery", ...)

键可以是示例中的常数,也可以是随机数。如果选择“随机”,则必须将范围设置得足够小以适合JVM内存。像ThreadLocalRandom.current().nextInt(0, 5000)