在传统的DWH流程中,我们根据传统RDBMS中的rowid查找重复项并跟踪重复记录。
例如
select pkey_columns, max(rowdid) from table group by pkey_columns
将仅返回对应于最大记录的重复记录。即使我们识别出重复的记录,这也有助于识别/跟踪记录。
pySpark是否具有等效功能?在dwh到pyspark dwh转换项目中如何处理?
答案 0 :(得分:0)
我建议您使用分析功能库,也许是
ROW_NUMBER()
OVER( PARTITION BY group pkey_columns
ORDER BY sort columns)