从数据存储中的文件中删除重复值的阶段

时间:2016-01-14 16:36:02

标签: datastage

可以使用哪个阶段从DataStage中的文件中删除重复值,而不是通过选择unique来删除重复和Stage属性分区?怎么做?

3 个答案:

答案 0 :(得分:1)

  1. 您可以使用排序阶段并使用属性
  2. 中的唯一设置
  3. 按顺序使用变压器并继续检查输入行是否为重复,如果是,则不传递给输出其他通过

答案 1 :(得分:1)

除了使用Remove Duplicates Stage之外,还有多种方法可以删除重复项。如上所述,您可以使用Sort阶段,Transformer阶段。

在排序阶段,您可以启用Key Change()列,过滤重复记录将非常有用。

您可以使用Aggregator阶段删除重复项。在这里,你需要2个阶段的复制和加入阶段。即使我们可以捕获duplicate records using remove duplicate stage

答案 2 :(得分:1)

最简单的方法是在顺序文件阶段属性中使用过滤器选项。在过滤器框中给出Unix命令sort -u并完成工作