使用数据流和查找的最佳实践ETL

时间:2017-05-19 09:55:28

标签: google-cloud-dataflow apache-beam

实现标准流式ETL过程的最佳实践是什么?该过程将事实和一些较小的维度表写入BigQuery?

我试图了解如何处理以下事项:

  • 如何在流媒体管道中进行简单的维度查找?
  • 如果答案是sideInput - 如何处理维度中尚不存在的值的查找?如何更新sideInput?

1 个答案:

答案 0 :(得分:1)

当侧输入在特定窗口上接收延迟数据时,它们将被重新计算。如果在此之后进行查找,那么您将能够在侧输入中看到该元素。

目前,Beam模型不包含重新触发消耗侧输入的ParDo的语义,因此您需要以某种方式确保在计算了侧输入后(重新)进行de lookup