我想使用talend integration open studio来检索重复记录
。 示例记录为:
id name
1 suresh
2 ramesh
3 nagesh
4 suresh
任何人都可以回答以上问题 预期结果为:
id name
1 suresh
4 suresh
感谢您提前
答案 0 :(得分:2)
直到tUniqueRow重复项无法正常工作,您可以使用技巧。 我把你的任务分成两步。
首先,您需要获取重复的名称。您可以使用tAggregateRow组件执行此操作。按名称分组,并计算ID数。然后,在过滤计数> 1后,您可以将这些结果保存在tHashOutput中。 tHashOutput将结果保存在内存中,以后可以使用它们。
在第二步中,再次读取数据并使用tMap将它们与保存在HashOutput中的结果进行匹配。如果在tMap输出中使用Join Model = Inner Join它们,则只能获得保存的重复项中存在的这些名称。
答案 1 :(得分:1)
最后我找到了重复的记录。我使用了以下规则
enter image description here
首先需要将deliminator文件映射到tuniqrow,然后将重复行从tuniqrow映射到taggretaterow.in taggregaterow将id.after映射分组到tmap。
在tmap中我加入了id == id并确保作为内部联接。
Example Join condition