应用错误收集

结构化流上作业管道的最佳三角洲湖分区策略

时间：2019-09-20 23:40:44

标签： databricks spark-structured-streaming azure-databricks

在我的方案中，我有2个结构化流作业，一个写入Delta Lake表，第二个作业从Delta Lake表读取，然后对其进行处理并写入另一个表。

对于结构化流（只需选择最后一批流之后插入的新记录），应该为分区创建的最佳选择是什么。如果我在表中使用CreatedDateTime列，则从该表读取的下一个作业是否将使用该分区。由于我只是使用readstream（），所以我不确定它将使用哪个分区。

1 个答案:

答案 0 :(得分：0)

这取决于数据本身，您应该使用哪个列进行分区。如果您的数据沿日期按比例分配，则可以使用CreatedDateTime（直方图看起来像什么？您没有任何输入大量数据的“高峰”时间吗？）。但是，如果不是这样，您的主键可能会更安全。