应用错误收集

使用数据流和查找的最佳实践ETL

时间：2017-05-19 09:55:28

标签： google-cloud-dataflow apache-beam

实现标准流式ETL过程的最佳实践是什么？该过程将事实和一些较小的维度表写入BigQuery？

我试图了解如何处理以下事项：

如何在流媒体管道中进行简单的维度查找？
如果答案是sideInput - 如何处理维度中尚不存在的值的查找？如何更新sideInput？

1 个答案:

答案 0 :(得分：1)

当侧输入在特定窗口上接收延迟数据时，它们将被重新计算。如果在此之后进行查找，那么您将能够在侧输入中看到该元素。

目前，Beam模型不包含重新触发消耗侧输入的ParDo的语义，因此您需要以某种方式确保在计算了侧输入后（重新）进行de lookup