Delta Processing(并行执行问题)

时间:2018-02-24 03:50:14

标签: azure-data-lake u-sql

情境:

我们有" employees_final " ADLA目录/表。

来自不同地点的用户会将员工数据加载到" employees_final " ADLA目录/表" 并行"通过ADF调用U-SQL。

当用户加载数据时,它首先进入临时表( employees_staging )。如果现有记录有更新,那么我们将在登台表中存储两个版本的数据( employees_staging )。下一步是,我们需要" employees_final "只有最新版记录的表格。

要创建最终表,我们正在加入登台和最终表,以查找插入/更新员工,并将现有记录与新记录和RECREATE最终表组合。

注意:由于没有DELETE选项,我们正在缓存现有记录并附加新/更新记录。

这种方法的缺点是,当用户并行运行ADF 时,它会尝试更新SAME employees_final 表,并且有可能 DATA因TRUNCATE / RECREATE表方法而丢失

我们有更好的方法来处理PARALLEL场景吗?

0 个答案:

没有答案