在我的方案中,我有2个结构化流作业,一个写入Delta Lake表,第二个作业从Delta Lake表读取,然后对其进行处理并写入另一个表。
对于结构化流(只需选择最后一批流之后插入的新记录),应该为分区创建的最佳选择是什么。如果我在表中使用CreatedDateTime列,则从该表读取的下一个作业是否将使用该分区。由于我只是使用readstream(),所以我不确定它将使用哪个分区。
答案 0 :(得分:0)
这取决于数据本身,您应该使用哪个列进行分区。如果您的数据沿日期按比例分配,则可以使用CreatedDateTime(直方图看起来像什么?您没有任何输入大量数据的“高峰”时间吗?)。但是,如果不是这样,您的主键可能会更安全。