在我的POC中,我正在尝试使用pig脚本实现ETL数据流(星型模式),正如您在加载到事实表之前所知,我想加载维度。在维度中,我只需要从源(csv文件)加载新记录,我的意思是维度中没有的记录(sql server)。猪中的所有连接(倾斜,复制和合并连接)都试图匹配现有记录并仅生成匹配的记录。你能否告诉我如何将无法比拟的记录作为输出来加载到我的维度?
由于 Selvam
答案 0 :(得分:1)
源(csv文件)的左外连接与维(sql server)表的连接。连接列为null的结果记录是新记录。然后过滤掉连接列的值为空的记录。