结构化流上作业管道的最佳三角洲湖分区策略

时间:2019-09-20 23:40:44

标签: databricks spark-structured-streaming azure-databricks

在我的方案中,我有2个结构化流作业,一个写入Delta Lake表,第二个作业从Delta Lake表读取,然后对其进行处理并写入另一个表。

对于结构化流(只需选择最后一批流之后插入的新记录),应该为分区创建的最佳选择是什么。如果我在表中使用CreatedDateTime列,则从该表读取的下一个作业是否将使用该分区。由于我只是使用readstream(),所以我不确定它将使用哪个分区。

1 个答案:

答案 0 :(得分:0)

这取决于数据本身,您应该使用哪个列进行分区。如果您的数据沿日期按比例分配,则可以使用CreatedDateTime(直方图看起来像什么?您没有任何输入大量数据的“高峰”时间吗?)。但是,如果不是这样,您的主键可能会更安全。