如何在talend集成中检索重复记录

时间:2016-01-12 02:42:47

标签: integration talend


我想使用talend integration open studio来检索重复记录 。 示例记录为:

id  name
1   suresh
2   ramesh
3   nagesh
4   suresh

任何人都可以回答以上问题 预期结果为:

id  name
1   suresh
4   suresh

感谢您提前

2 个答案:

答案 0 :(得分:2)

直到tUniqueRow重复项无法正常工作,您可以使用技巧。 我把你的任务分成两步。

首先,您需要获取重复的名称。您可以使用tAggregateRow组件执行此操作。按名称分组,并计算ID数。然后,在过滤计数> 1后,您可以将这些结果保存在tHashOutput中。 tHashOutput将结果保存在内存中,以后可以使用它们。

duplicates_1st_step

在第二步中,再次读取数据并使用tMap将它们与保存在HashOutput中的结果进行匹配。如果在tMap输出中使用Join Model = Inner Join它们,则只能获得保存的重复项中存在的这些名称。

duplicates_2nd_step

答案 1 :(得分:1)


最后我找到了重复的记录。我使用了以下规则 enter image description here


首先需要将deliminator文件映射到tuniqrow,然后将重复行从tuniqrow映射到taggretaterow.in taggregaterow将id.after映射分组到tmap。 在tmap中我加入了id == id并确保作为内部联接。

Example Join condition

capture